Microsoft MVP성태의 닷넷 이야기
VC++: 125. CUDA로 작성한 RGB2RGBA 성능 [링크 복사], [링크+제목 복사],
조회: 22035
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
(연관된 글이 4개 있습니다.)
(시리즈 글이 4개 있습니다.)
VC++: 125. CUDA로 작성한 RGB2RGBA 성능
; https://www.sysnet.pe.kr/2/0/11471

개발 환경 구성: 356. GTX 1070, GTX 960, GT 640M의 cudaGetDeviceProperties 출력 결과
; https://www.sysnet.pe.kr/2/0/11472

개발 환경 구성: 357. CUDA의 인덱싱 관련 용어 - blockIdx, threadIdx, blockDim, gridDim
; https://www.sysnet.pe.kr/2/0/11481

VC++: 126. CUDA Core 수를 알아내는 방법
; https://www.sysnet.pe.kr/2/0/11482




CUDA로 작성한 RGB2RGBA 성능

지난 글에서,

C# - OpenCvSharp 사용 시 C/C++을 이용한 속도 향상 (for 루프 연산)
; https://www.sysnet.pe.kr/2/0/11422

OpenCV의 CvtColor(ColorConversionCodes.BGR2BGRA) 호출에 대해 C++/parallel_for로 성능을 유사하게 구현한 적이 있습니다. 마찬가지로, SIMD를 이용해 OpenCV의 erode 연산을 해보기도 했습니다.

내가 만든 코드보다 OpenCV의 속도가 월등히 빠른 이유
; https://www.sysnet.pe.kr/2/0/11423

아쉽게도 SIMD 연산의 경우 RGB2RGBA 연산에는 적용할 수 없었는데요. CUDA의 경우 kernel 함수가 SIMD보다는 더 유연하기 때문에 RGB2RGBA 같은 연산을 구현하는 것이 가능한데, 아래의 코드가 바로 그것입니다.

__global__ void rgb2rgba(int n, BYTE *srcPtr, BYTE *dstPtr)
{
    int tid = threadIdx.x + blockIdx.x * blockDim.x;

    while (tid < n)
    {
        int srcPos = tid * 3;
        int dstPos = tid * 4;

        dstPtr[dstPos + 0] = srcPtr[srcPos + 0];
        dstPtr[dstPos + 1] = srcPtr[srcPos + 1];
        dstPtr[dstPos + 2] = srcPtr[srcPos + 2];
        dstPtr[dstPos + 3] = 0xff;

        tid += (blockDim.x * gridDim.x);
    }
}

위의 kernel 함수를 C#에서 호출할 수 있도록 다음과 같이 export 함수를 하나 만들어 주고,

__declspec(dllexport) BOOL RGB2RGBA_Cuda(BYTE *srcPtr, BYTE *dstPtr, int width, int height)
{
    BYTE *cudaSrc = nullptr;
    BYTE *cudaDst = nullptr;

    int srcSize = width * height * 3; // RGB 3bytes
    int dstSize = width * height * 4; // RGBA 4bytes

    BOOL ret = FALSE;

    do
    {
        cudaError_t cudaStatus = cudaMalloc((void **)&cudaSrc, srcSize);
        if (cudaStatus != cudaSuccess)
        {
            break;
        }

        cudaStatus = cudaMalloc((void **)&cudaDst, dstSize);
        if (cudaStatus != cudaSuccess)
        {
            break;
        }

        cudaStatus = cudaMemcpy(cudaSrc, srcPtr, srcSize, cudaMemcpyHostToDevice);
        if (cudaStatus != cudaSuccess)
        {
            break;
        }

        rgb2rgba<<<64, 64>>>(width * height, cudaSrc, cudaDst);

        cudaStatus = cudaGetLastError();
        if (cudaStatus != cudaSuccess)
        {
            break;
        }

        cudaStatus = cudaDeviceSynchronize();
        if (cudaStatus != cudaSuccess) 
        {
            break;
        }

        cudaStatus = cudaMemcpy(dstPtr, cudaDst, dstSize, cudaMemcpyDeviceToHost);
        if (cudaStatus != cudaSuccess)
        {
            break;
        }

        ret = TRUE;
    } while (false);

    if (cudaSrc != nullptr)
    {
        cudaFree(cudaSrc);
    }

    if (cudaDst != nullptr)
    {
        cudaFree(cudaDst);
    }

    return ret;
}

테스트해 보면, 100회 연산에 2초 넘는 시간이 걸립니다. 즉, "C# - OpenCvSharp 사용 시 C/C++을 이용한 속도 향상 (for 루프 연산)" 글에서 성능 테스트한 것 중에 (C# 제외하고) 가장 안 좋은 기록이 나온 것입니다. (아직 제가 CUDA 초보자라 더 빠르게 할 수 있는 방법이 있는지는 모르겠습니다.)

성능이 낮은 이유는, RAM에 있는 데이터를 GPU의 메모리로 복사하고 그 결과를 다시 RAM으로 복사하는 오버헤드가 있기 때문입니다.

따라서, CUDA를 이용해 성능 향상을 이루고 싶다면 메모리 복사에 따른 오버헤드를 극복할 정도의 복잡한 kernel 연산이거나, 아니면 CPU를 쉬게 하면서 GPU에 다중으로 작업을 맡기는 경우에만 쓰는 것이 좋겠습니다.

(첨부 파일은 "C# - OpenCvSharp 사용 시 C/C++을 이용한 속도 향상 (for 루프 연산)" 글의 예제에 CUDA 테스트를 포함합니다.)




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]






[최초 등록일: ]
[최종 수정일: 3/21/2018]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 



2021-01-22 08시13분
ILGPU로 시작하는 GPGPU 프로그래밍
; https://www.youtube.com/watch?v=TUs_Jsy7_Sg

How to Move from CUDA Math Library Calls to oneMKL
; https://www.codeproject.com/Articles/5363447/How-to-Move-from-CUDA-Math-Library-Calls-to-oneMKL
정성태

... 181  182  183  184  185  186  187  188  189  190  191  192  193  [194]  195  ...
NoWriterDateCnt.TitleFile(s)
92정성태1/29/200518254.NET Framework: 23. Unmanaged 환경에서 Managed DLL에 정의된 메서드 호출 시 오류 확인하는 방법
91정성태11/14/200518855VC++: 12. VS.NET 2005 VC++ Debug: Expression: ( (state != ST_INVALID ) )
90정성태1/27/200519641.NET Framework: 22. Debug: The underlying connection was closed: Unable to connect to the remote server.
89정성태1/26/200524174VC++: 11. Delay Loaded DLL
87정성태1/23/200517780VS.NET IDE: 18. VS.NET 2005 Beta 1 - VC++ 프로젝트에서 Connection Point 구현시 버그
88정성태1/23/200517487    답변글 VS.NET IDE: 18.1. VS.NET 2003 : VC++ 프로젝트에서 Connection Point 추가시에도 버그
86정성태1/23/200523207.NET Framework: 21. Code Snippet - Enum과 관련된 다양한 형변환 [1]
85정성태1/23/200521333스크립트: 4. Windows 2003에서 BHO(Browser Helper Objects) 동작 안하는 현상 [1]
83정성태1/18/200526470.NET Framework: 20. System.AccessViolationException 예외가 발생한 한 예.
82정성태1/3/200519936VS.NET IDE: 17. Windows 운영 - 특정 사용자 또는 그룹에 대해서 파일 공유 접근 금지
79정성태1/20/200527876기타: 8. DELL Latitude D800 노트북 컴퓨터의 PC Beep 소음(!) 문제.
78정성태12/27/200420255VS.NET IDE: 16. MS 제품 관련 사용되는 TCP/IP 포트 열거파일 다운로드1
77정성태12/27/200420503VS.NET IDE: 15. Virtual CD-ROM Control Panel - ISO 이미지를 CD-ROM 드라이브처럼 접근하게 해주는 EXE 프로그램 [1]파일 다운로드1
76정성태12/27/200421556VS.NET IDE: 14. VPN 접속시 IP를 고정적으로 할당받는 방법 [1]
75정성태12/27/200417794VS.NET IDE: 13. VS.NET 2005 Beta 1 - Portfolio Explorer 에 등록된 Team Server 항목 삭제 방법
84정성태1/19/200518677    답변글 VS.NET IDE: 13.1. VS.NET 2005 Beta 1 : Team Server 에 등록된 포트폴리오 프로젝트 삭제 방법
74정성태12/26/200419296VS.NET IDE: 12. [시나리오] VS.NET 2005 Team Foundation Server을 Virtual Server에 설치 [1]
80정성태12/31/200418577    답변글 VS.NET IDE: 12.1. Client Tier, 즉 VS.NET 2005가 설치된 컴퓨터도 ActiveDirectory에 참여를 해야 합니다.
81정성태12/31/200420506    답변글 VS.NET IDE: 12.2. Tier 컴퓨터를 모두 영문으로 재구성
109정성태3/4/200515691    답변글 VS.NET IDE: 12.3. [보완] MS 공식 아티클 - Installing the December CTP Release of Visual Studio Team System
73정성태11/14/200517528.NET Framework: 19. VS.NET 2005 Team Foundation Server 설치오류 - 26204 예외
72정성태12/26/200418964.NET Framework: 18. .NET Framework 2.0 Beta 설치 후에 Windows SharePoint Service 오류 [1]
136정성태3/31/200518850    답변글 .NET Framework: 18.1. Windows Sharepoint Services 를 설치한 이후 ASP.NET 오류 문제
71정성태12/26/200417193VS.NET IDE: 11. SQL Server 2005 Beta 2 를 네트워크 드라이브로부터 설치시 오류
70정성태12/26/200420033VS.NET IDE: 10. WSS 설치 후 localhost 접근 보안 오류
69정성태12/5/200417106VS.NET IDE: 9. 다른 컴퓨터(방화벽 설치)에 설치된 SQL Server에 통합 인증을 할 때 필요한 포트
... 181  182  183  184  185  186  187  188  189  190  191  192  193  [194]  195  ...