Microsoft MVP성태의 닷넷 이야기
VC++: 79. [부연] CAS Lock 알고리즘은 과연 빠른가? [링크 복사], [링크+제목 복사],
조회: 26820
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
(연관된 글이 1개 있습니다.)

[부연] CAS Lock Lock-Free 알고리즘은 과연 빠른가?

아래와 같은 글이 있군요. ^^

Lock-Free 알고리즘은 과연 빠른가? 
; http://little-thread.blogspot.kr/2014/08/lock-free.html

결론은 CAS Lock lock-free보다 CriticalSection을 쓴 것이 더 빠르다는 것입니다.

그런데, 약간 테스트 상에 공정성이 위배되는 것이 있습니다. CriticalSection은 블록으로 썼으면서,

ULONGLONG t0 = ::GetTickCount64();
for (int i = 0; i < TEST_LOOP; i++) {
    ::EnterCriticalSection(&cs);
    volatile LONG* p = v;
    for (int j = 0; j < cntTest; j++) {
        _asm mov eax, p;
        _asm inc[eax];
        p++;
    }
    ::LeaveCriticalSection(&cs);
}

CAS Lock lock-free 쪽은 매순간 lock을 거는 방식을 썼습니다.

ULONGLONG t1 = ::GetTickCount64();
for (int i = 0; i < TEST_LOOP; i++) {
    volatile LONG* p = v;
    for (int j = 0; j < cntTest; j++) {
        _asm mov eax, p;
        _asm lock inc[eax];
        p++;
    }
}
    
ULONGLONG t2 = ::GetTickCount64();
for (int i = 0; i < TEST_LOOP; i++) {
    volatile LONG* p = v;
    for (int j = 0; j < cntTest; j++) 
    {
        ::InterlockedIncrement(p);
        p++;
    }
}

CAS Lock lock-free를 블록으로 사용하는 방법은 조금 미루고 바로 위에 소개한 2개의 테스트를 좀 볼까요? 우선 _asm으로 인라인 시킨 경우 실행시 기계어가 이렇고,

mov         eax,dword ptr [ebp-0C0h]  
lock inc    byte ptr [eax]  

InterlockedIncrement의 경우 결국 다음과 같은 기계어로 인라인 되므로,

mov         eax,dword ptr [ebp-0F4h]  
mov         ecx,1  
lock xadd   dword ptr [eax],ecx  

별반 큰 차이가 없습니다. 재미있는 것은 기계어가 오히려 1개 더 늘었는데도 "Lock-Free 알고리즘은 과연 빠른가?" 글에 공개된 수치를 보면 InterlockedIncrement의 성능이 근소하게 빠르다는 점입니다.

test =  1 : lock = 202, lock_free 1 = 110, lock_free 2 = 78
test =  2 : lock = 234, lock_free 1 = 171, lock_free 2 = 172
test =  3 : lock = 218, lock_free 1 = 250, lock_free 2 = 234
test =  4 : lock = 234, lock_free 1 = 343, lock_free 2 = 281
test =  5 : lock = 234, lock_free 1 = 437, lock_free 2 = 358
test =  6 : lock = 234, lock_free 1 = 515, lock_free 2 = 421
test =  7 : lock = 250, lock_free 1 = 593, lock_free 2 = 499
test =  8 : lock = 250, lock_free 1 = 686, lock_free 2 = 562
test =  9 : lock = 265, lock_free 1 = 733, lock_free 2 = 624
test = 10 : lock = 281, lock_free 1 = 811, lock_free 2 = 702




그나저나, CAS Lock lock-free를 블록으로 사용하는 방법이 뭘까요? 예전에 이에 대해 한번 소개해 드렸었지요. ^^

CAS Lock lock-free 방식이 과연 성능에 얼마나 도움이 될까요?
; https://www.sysnet.pe.kr/2/0/1458

저 역시 위의 글에서 C#의 경우 lock 코드가 CAS Lock lock-free보다 더 빠르다고 결론을 내렸었습니다. 따라서 저 글의 코드를 유사하게 가져다가 테스트를 할 수 있습니다.

volatile unsigned int _lockVariable = 0;
ULONGLONG t3 = ::GetTickCount64();
for (int i = 0; i < TEST_LOOP; i++) {
    volatile LONG* p = v;
    while (::InterlockedCompareExchange(&_lockVariable, 1, 0) != 0)
    {
    }

    for (int j = 0; j < cntTest; j++)
    {
        _asm mov eax, p;
        _asm inc[eax];
        p++;
    }

    _lockVariable = 0;
}

테스트 결과가 궁금하지 않으세요? ^^ 다음은 제 컴퓨터에서 수행한 것입니다.

test = 1 : lock = 203, lock_free 1 = 78, lock_free 2 = 78, lock_free 3 = 250
test = 2 : lock = 188, lock_free 1 = 125, lock_free 2 = 125, lock_free 3 = 265
test = 3 : lock = 203, lock_free 1 = 204, lock_free 2 = 187, lock_free 3 = 266
test = 4 : lock = 218, lock_free 1 = 250, lock_free 2 = 235, lock_free 3 = 281
test = 5 : lock = 219, lock_free 1 = 312, lock_free 2 = 297, lock_free 3 = 297
test = 6 : lock = 234, lock_free 1 = 360, lock_free 2 = 359, lock_free 3 = 313
test = 7 : lock = 234, lock_free 1 = 422, lock_free 2 = 422, lock_free 3 = 328
test = 8 : lock = 266, lock_free 1 = 500, lock_free 2 = 484, lock_free 3 = 359
test = 9 : lock = 266, lock_free 1 = 547, lock_free 2 = 547, lock_free 3 = 375
test = 10 : lock = 281, lock_free 1 = 609, lock_free 2 = 594, lock_free 3 = 391

오호~~~ 그래도 CriticalSection보다 성능이 낮군요. 그러나 이것은 DEBUG 빌드의 결과물입니다. Release 빌드로 하면 상황이 역전됩니다.

test = 1 : lock = 187, lock_free 1 = 78, lock_free 2 = 47, lock_free 3 = 109
test = 2 : lock = 204, lock_free 1 = 125, lock_free 2 = 109, lock_free 3 = 94
test = 3 : lock = 203, lock_free 1 = 187, lock_free 2 = 157, lock_free 3 = 78
test = 4 : lock = 203, lock_free 1 = 250, lock_free 2 = 203, lock_free 3 = 109
test = 5 : lock = 219, lock_free 1 = 313, lock_free 2 = 265, lock_free 3 = 94
test = 6 : lock = 203, lock_free 1 = 391, lock_free 2 = 312, lock_free 3 = 94
test = 7 : lock = 219, lock_free 1 = 453, lock_free 2 = 359, lock_free 3 = 110
test = 8 : lock = 218, lock_free 1 = 516, lock_free 2 = 406, lock_free 3 = 125
test = 9 : lock = 219, lock_free 1 = 594, lock_free 2 = 453, lock_free 3 = 125
test = 10 : lock = 219, lock_free 1 = 671, lock_free 2 = 500, lock_free 3 = 141

보시는 바와 같이 새롭게 추가한 "lock_free 3" 번의 결과는 CriticalSection 보다 성능이 더 좋습니다.

(첨부한 코드는 "Lock-Free 알고리즘은 과연 빠른가?" 글에 공개된 것에 블록 방식의 lock-free 코드를 추가한 것입니다.)




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]






[최초 등록일: ]
[최종 수정일: 4/27/2023]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 



2014-08-26 12시13분
위에서 제가 제시한 방법은 엄밀히 lock-free라고 볼 수 없고, 그냥 CAS를 이용한 lock을 한 것에 불과합니다. lock-free에 대한 자세한 사항은 다음의 글을 참조하세요. ^^

Chapter 17. Boost.Lockfree
; http://www.boost.org/doc/libs/1_53_0/doc/html/lockfree.html

Ndc2014 시즌 2 : 멀티쓰레드 프로그래밍이 왜 이리 힘드나요? (Lock-free에서 Transactional Memory까지)
; http://www.slideshare.net/zzapuno/ndc2014-2
정성태
2021-05-15 11시48분
정성태

... [121]  122  123  124  125  126  127  128  129  130  131  132  133  134  135  ...
NoWriterDateCnt.TitleFile(s)
10930정성태3/30/201622700.NET Framework: 570. .NET 4.5부터 추가된 CLR Profiler의 실행 시 Rejit 기능
10929정성태3/29/201633009.NET Framework: 569. ServicePointManager.DefaultConnectionLimit의 역할파일 다운로드1
10928정성태3/28/201638761.NET Framework: 568. ODP.NET의 완전한 닷넷 버전 Oracle ODP.NET, Managed Driver [2]파일 다운로드1
10927정성태3/25/201627250.NET Framework: 567. System.Net.ServicePointManager의 DefaultConnectionLimit 속성 설명
10926정성태3/24/201627523.NET Framework: 566. openssl의 PKCS#1 PEM 개인키 파일을 .NET RSACryptoServiceProvider에서 사용하는 방법 [10]파일 다운로드1
10925정성태3/24/201621117.NET Framework: 565. C# - Rabin-Miller 소수 생성 방법을 이용하여 RSACryptoServiceProvider의 개인키를 직접 채워보자 - 두 번째 이야기파일 다운로드1
10924정성태3/22/201622391오류 유형: 324. Visual Studio에서 Azure 클라우드 서비스 생성 시 Failed to initialize the PowerShell host 에러 발생
10923정성태3/21/201622828.NET Framework: 564. C# - DGML로 바이너리 트리 출력하는 방법 [1]파일 다운로드1
10922정성태3/21/201623992.NET Framework: 563. 디버깅 용도로 이진 트리의 내용을 출력하는 방법파일 다운로드1
10921정성태3/17/201627236.NET Framework: 562. BBI 인터프리터 C/C++ 코드를 C#으로 변환 [3]파일 다운로드2
10920정성태3/15/201627887.NET Framework: 561. null 처리된 객체가 왜 GC에 의해 수집되지 않을까요? [6]파일 다운로드1
10919정성태3/12/201624078.NET Framework: 560. C#에서 return할 때 명시적으로 casting한 것과 안한 것의 차이 [2]파일 다운로드1
10918정성태3/10/201621029.NET Framework: 559. WPF - ICommand.CanExecuteChanged가 해제되지 않는 문제 [2]파일 다운로드1
10917정성태3/10/201641037.NET Framework: 558. WPF - ICommand 동작 방식 [9]파일 다운로드1
10916정성태3/9/201628095.NET Framework: 557. 머신 바이트 배열로부터 역어셈블해주는 라이브러리 - Udis86 Assembler파일 다운로드2
10915정성태3/9/201623187오류 유형: 323. FatalExecutionEngineError was detected
10914정성태3/8/201626556오류 유형: 322. 정적 라이브러리 참조 시 "LNK2019 unresolved external symbol '...' referenced in function" 오류 발생파일 다운로드1
10913정성태3/7/201626329.NET Framework: 556. C#으로 다루는 MBR(Master Boot Record) [9]파일 다운로드1
10912정성태3/2/201622561.NET Framework: 555. List<T>의 Resize 메서드 구현 [2]파일 다운로드1
10911정성태2/29/201626550Math: 15. 그래프 그리기로 알아보는 뉴턴-랩슨(Newton-Raphson's method)법과 제곱근 구하기 - C#파일 다운로드1
10910정성태2/29/201628356Math: 14. HTML에서 수학 관련 기호/수식을 표현하기 위한 방법 - MathJax.js - 두 번째 이야기 [5]
10909정성태2/25/201626564기타: 56. ETW provider 목록 [3]
10908정성태2/25/201622839기타: 55. ETW man 파일 목록
10907정성태2/24/201622113.NET Framework: 554. 인터프리터 - 재귀적 하향 구문 분석 C# 예제파일 다운로드1
10906정성태2/24/201620089.NET Framework: 553. C# 관리 코드에서 IMetaDataDispenserEx, IMetaDataImport 관련 인터페이스를 얻는 방법파일 다운로드1
10905정성태2/24/201623730오류 유형: 321. Hyper-V The operation failed with error code '32791'.
... [121]  122  123  124  125  126  127  128  129  130  131  132  133  134  135  ...