C# - OpenCvSharp 사용 시 포인터를 이용한 속도 향상
아래의 글을 쓴 이후,
내가 만든 코드보다 OpenCV의 속도가 월등히 빠른 이유
; https://www.sysnet.pe.kr/2/0/11423
그래도 C#의 성능을 어떻게 좀 높일 수 있을까... 생각하다가 그냥 포인터 연산을 사용해 보기로 했습니다. 지난 글에서도 봤듯이 포인터 연산이라고 해서 무조건 빠른 것은 아닙니다.
C# - System.Span<T> 성능
; https://www.sysnet.pe.kr/2/0/11535
위의 결과에도 나오지만 단순 배열의 경우 포인터 연산과 비교해도 속도에서 결코 뒤지지 않습니다. 단지, OpenCvSharp의 경우에는 개별 요소를 제네릭 메서드로 경유하는 것이기 때문에 포인터를 직접 사용하는 것이 더 나을 수 있겠다는 생각이었습니다.
변환 코드는 다음의 제네릭 버전(At, Set)인 C# 메서드를,
static int Convert2(Mat srcMat, Mat kernel, Window window)
{
int iMin, iVal;
using (Mat dstMat = srcMat.Clone())
{
for (int i = 0; i < srcMat.Rows - 2; i++)
{
for (int j = 0; j < srcMat.Cols - 2; j++)
{
iMin = 0xFFF;
for (int ii = 0; ii < kernel.Rows; ii++)
{
for (int jj = 0; jj < kernel.Cols; jj++)
{
if (kernel.At<byte>(ii, jj) != 0)
{
iVal = srcMat.At<byte>(i + ii, j + jj);
if (iMin > iVal)
{
iMin = iVal;
}
}
}
}
dstMat.Set<byte>(i + 1, j + 1, (byte)iMin);
}
}
}
return 0;
}
포인터 연산으로 바꾼 것입니다.
static unsafe int Convert3(Mat srcMat, Mat kernel, Window window)
{
int iMin, iVal;
byte* kernelPtr = kernel.DataPointer;
long kernelStep = kernel.Step();
int kernelElemSize = kernel.ElemSize();
byte* srcPtr = srcMat.DataPointer;
long srcStep = srcMat.Step();
int srcElemSize = srcMat.ElemSize();
using (Mat dstMat = srcMat.Clone())
{
byte *dstPtr = dstMat.DataPointer;
long dstStep = dstMat.Step();
int dstElemSize = dstMat.ElemSize();
for (int i = 0; i < srcMat.Rows - 2; i++)
{
for (int j = 0; j < srcMat.Cols - 2; j++)
{
iMin = 0xFFF;
for (int ii = 0; ii < kernel.Rows; ii++)
{
for (int jj = 0; jj < kernel.Cols; jj++)
{
if (*(kernelPtr + (ii) * kernelStep + (jj) * kernelElemSize) != 0)
{
iVal = *(srcPtr + (i + ii) * srcStep + (j + jj) * srcElemSize);
if (iMin > iVal)
{
iMin = iVal;
}
}
}
}
*(dstPtr + ((i + 1) * dstStep + (j + 1) * dstElemSize)) = (byte)iMin;
}
}
if (window != null)
{
window.ShowImage(dstMat);
}
}
return 0;
}
테스트 결과는, OpenCvSharp의 제네릭 메서드 버전이 얼마나 낮은 성능을 보이는지 극명하게 나타내고 있습니다.
[CPU i5-4670 4-core]
OpenCvSharp 제네릭 At, Set : 26,550ms
C# unsafe ptr : 1,341ms
C# unsafe ptr parallel : 285ms
C++ : 51ms
엄청난 차이입니다. ^^; 물론, 그래도 C++의 51ms에 비하면 많이 느리지만 26초 걸리던 것을 1초 정도로 줄였으니 현실적으로 봤을 때 가벼운 목적으로 제작하는 프로그램이라면 C++의 힘을 빌리지 않아도 될 수준까지는 내려갔습니다.
따라서 OpenCvSharp에서 제네릭 메서드 버전의 사용은 지양하는 것이 좋습니다.
(
첨부 파일은 이 글의 예제 코드를 포함합니다.)
[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]