(연관된 글이 4개 있습니다.)
(시리즈 글이 4개 있습니다.)

VC++: 125. CUDA로 작성한 RGB2RGBA 성능
; https://www.sysnet.pe.kr/2/0/11471

개발 환경 구성: 356. GTX 1070, GTX 960, GT 640M의 cudaGetDeviceProperties 출력 결과
; https://www.sysnet.pe.kr/2/0/11472

개발 환경 구성: 357. CUDA의 인덱싱 관련 용어 - blockIdx, threadIdx, blockDim, gridDim
; https://www.sysnet.pe.kr/2/0/11481

VC++: 126. CUDA Core 수를 알아내는 방법
; https://www.sysnet.pe.kr/2/0/11482

CUDA로 작성한 RGB2RGBA 성능

지난 글에서,

C# - OpenCvSharp 사용 시 C/C++을 이용한 속도 향상 (for 루프 연산)
; https://www.sysnet.pe.kr/2/0/11422

OpenCV의 CvtColor(ColorConversionCodes.BGR2BGRA) 호출에 대해 C++/parallel_for로 성능을 유사하게 구현한 적이 있습니다. 마찬가지로, SIMD를 이용해 OpenCV의 erode 연산을 해보기도 했습니다.

내가 만든 코드보다 OpenCV의 속도가 월등히 빠른 이유
; https://www.sysnet.pe.kr/2/0/11423

아쉽게도 SIMD 연산의 경우 RGB2RGBA 연산에는 적용할 수 없었는데요. CUDA의 경우 kernel 함수가 SIMD보다는 더 유연하기 때문에 RGB2RGBA 같은 연산을 구현하는 것이 가능한데, 아래의 코드가 바로 그것입니다.

__global__ void rgb2rgba(int n, BYTE *srcPtr, BYTE *dstPtr)
{
    int tid = threadIdx.x + blockIdx.x * blockDim.x;

    while (tid < n)
    {
        int srcPos = tid * 3;
        int dstPos = tid * 4;

        dstPtr[dstPos + 0] = srcPtr[srcPos + 0];
        dstPtr[dstPos + 1] = srcPtr[srcPos + 1];
        dstPtr[dstPos + 2] = srcPtr[srcPos + 2];
        dstPtr[dstPos + 3] = 0xff;

        tid += (blockDim.x * gridDim.x);
    }
}

위의 kernel 함수를 C#에서 호출할 수 있도록 다음과 같이 export 함수를 하나 만들어 주고,

__declspec(dllexport) BOOL RGB2RGBA_Cuda(BYTE *srcPtr, BYTE *dstPtr, int width, int height)
{
    BYTE *cudaSrc = nullptr;
    BYTE *cudaDst = nullptr;

    int srcSize = width * height * 3; // RGB 3bytes
    int dstSize = width * height * 4; // RGBA 4bytes

    BOOL ret = FALSE;

    do
    {
        cudaError_t cudaStatus = cudaMalloc((void **)&cudaSrc, srcSize);
        if (cudaStatus != cudaSuccess)
        {
            break;
        }

        cudaStatus = cudaMalloc((void **)&cudaDst, dstSize);
        if (cudaStatus != cudaSuccess)
        {
            break;
        }

        cudaStatus = cudaMemcpy(cudaSrc, srcPtr, srcSize, cudaMemcpyHostToDevice);
        if (cudaStatus != cudaSuccess)
        {
            break;
        }

        rgb2rgba<<<64, 64>>>(width * height, cudaSrc, cudaDst);

        cudaStatus = cudaGetLastError();
        if (cudaStatus != cudaSuccess)
        {
            break;
        }

        cudaStatus = cudaDeviceSynchronize();
        if (cudaStatus != cudaSuccess) 
        {
            break;
        }

        cudaStatus = cudaMemcpy(dstPtr, cudaDst, dstSize, cudaMemcpyDeviceToHost);
        if (cudaStatus != cudaSuccess)
        {
            break;
        }

        ret = TRUE;
    } while (false);

    if (cudaSrc != nullptr)
    {
        cudaFree(cudaSrc);
    }

    if (cudaDst != nullptr)
    {
        cudaFree(cudaDst);
    }

    return ret;
}

테스트해 보면, 100회 연산에 2초 넘는 시간이 걸립니다. 즉, "C# - OpenCvSharp 사용 시 C/C++을 이용한 속도 향상 (for 루프 연산)" 글에서 성능 테스트한 것 중에 (C# 제외하고) 가장 안 좋은 기록이 나온 것입니다. (아직 제가 CUDA 초보자라 더 빠르게 할 수 있는 방법이 있는지는 모르겠습니다.)

성능이 낮은 이유는, RAM에 있는 데이터를 GPU의 메모리로 복사하고 그 결과를 다시 RAM으로 복사하는 오버헤드가 있기 때문입니다.

따라서, CUDA를 이용해 성능 향상을 이루고 싶다면 메모리 복사에 따른 오버헤드를 극복할 정도의 복잡한 kernel 연산이거나, 아니면 CPU를 쉬게 하면서 GPU에 다중으로 작업을 맡기는 경우에만 쓰는 것이 좋겠습니다.

(첨부 파일은 "C# - OpenCvSharp 사용 시 C/C++을 이용한 속도 향상 (for 루프 연산)" 글의 예제에 CUDA 테스트를 포함합니다.)

[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]

[최초 등록일: 3/20/2018]
[최종 수정일: 3/21/2018]

이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.

by SeongTae Jeong, mailto:techsharer at outlook.com

No	Writer	Date	Cnt.	Title	File(s)
12903	정성태	1/7/2022	7281	.NET Framework: 1130. C# - ELEMENT_TYPE_INTERNAL 유형의 사용 예
12902	정성태	1/7/2022	7336	오류 유형: 779. SQL 서버 로그인 에러 - provider: Shared Memory Provider, error: 0 - No process is on the other end of the pipe.
12901	정성태	1/5/2022	7374	오류 유형: 778. C# - .NET 5+에서 warning CA1416: This call site is reachable on all platforms. '...' is only supported on: 'windows' 경고 발생
12900	정성태	1/5/2022	9044	개발 환경 구성: 622. vcpkg로 ffmpeg를 빌드하는 경우 생성될 구성 요소 제어하는 방법
12899	정성태	1/3/2022	8538	개발 환경 구성: 621. windbg에서 python 스크립트 실행하는 방법 - pykd (2)
12898	정성태	1/2/2022	9098	.NET Framework: 1129. C# - ffmpeg(FFmpeg.AutoGen)를 이용한 비디오 인코딩 예제(encode_video.c) [1]	1
12897	정성태	1/2/2022	7983	.NET Framework: 1128. C# - 화면 캡처한 이미지를 ffmpeg(FFmpeg.AutoGen)로 동영상 처리 [4]	1
12896	정성태	1/1/2022	10835	.NET Framework: 1127. C# - FFmpeg.AutoGen 라이브러리를 이용한 기본 프로젝트 구성	1
12895	정성태	12/31/2021	9315	.NET Framework: 1126. C# - snagit처럼 화면 캡처를 연속으로 수행해 동영상 제작 [1]	1
12894	정성태	12/30/2021	7265	.NET Framework: 1125. C# - DefaultObjectPool<T>의 IDisposable 개체에 대한 풀링 문제 [3]	1
12893	정성태	12/27/2021	8835	.NET Framework: 1124. C# - .NET Platform Extension의 ObjectPool<T> 사용법 소개	1
12892	정성태	12/26/2021	6815	기타: 83. unsigned 형의 이전 값이 최댓값을 넘어 0을 지난 경우, 값의 차이를 계산하는 방법
12891	정성태	12/23/2021	6752	스크립트: 38. 파이썬 - uwsgi의 --master 옵션
12890	정성태	12/23/2021	6884	VC++: 152. Golang - (문자가 아닌) 바이트 위치를 반환하는 strings.IndexRune 함수
12889	정성태	12/22/2021	9313	.NET Framework: 1123. C# - (SharpDX + DXGI) 화면 캡처한 이미지를 빠르게 JPG로 변환하는 방법	1
12888	정성태	12/21/2021	7476	.NET Framework: 1122. C# - ImageCodecInfo 사용 시 System.Drawing.Image와 System.Drawing.Bitmap에 따른 Save 성능 차이	1
12887	정성태	12/21/2021	9540	오류 유형: 777. OpenCVSharp4를 사용한 프로그램 실행 시 "The type initializer for 'OpenCvSharp.Internal.NativeMethods' threw an exception." 예외 발생
12886	정성태	12/20/2021	7458	스크립트: 37. 파이썬 - uwsgi의 --enable-threads 옵션 [2]
12885	정성태	12/20/2021	7733	오류 유형: 776. uwsgi-plugin-python3 환경에서 MySQLdb 사용 환경
12884	정성태	12/20/2021	6782	개발 환경 구성: 620. Windows 10+에서 WMI root/Microsoft/Windows/WindowsUpdate 네임스페이스 제거
12883	정성태	12/19/2021	7633	오류 유형: 775. uwsgi-plugin-python3 환경에서 "ModuleNotFoundError: No module named 'django'" 오류 발생
12882	정성태	12/18/2021	6746	개발 환경 구성: 619. Windows Server에서 WSL을 위한 리눅스 배포본을 설치하는 방법
12881	정성태	12/17/2021	7256	개발 환경 구성: 618. WSL Ubuntu 20.04에서 파이썬을 위한 uwsgi 설치 방법 (2)
12880	정성태	12/16/2021	7040	VS.NET IDE: 170. Visual Studio에서 .NET Core/5+ 역어셈블 소스코드 확인하는 방법
12879	정성태	12/16/2021	13284	오류 유형: 774. Windows Server 2022 + docker desktop 설치 시 WSL 2로 선택한 경우 "Failed to deploy distro docker-desktop to ..." 오류 발생
12878	정성태	12/15/2021	8334	개발 환경 구성: 617. 윈도우 WSL 환경에서 같은 종류의 리눅스를 다중으로 설치하는 방법

Writer

Date

Cnt.

Title

File(s)

12903

정성태

1/7/2022

7281

.NET Framework: 1130. C# - ELEMENT_TYPE_INTERNAL 유형의 사용 예

12902

정성태