Microsoft MVP성태의 닷넷 이야기
VC++: 79. [부연] CAS Lock 알고리즘은 과연 빠른가? [링크 복사], [링크+제목 복사],
조회: 28690
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
(연관된 글이 1개 있습니다.)

[부연] CAS Lock Lock-Free 알고리즘은 과연 빠른가?

아래와 같은 글이 있군요. ^^

Lock-Free 알고리즘은 과연 빠른가? 
; http://little-thread.blogspot.kr/2014/08/lock-free.html

결론은 CAS Lock lock-free보다 CriticalSection을 쓴 것이 더 빠르다는 것입니다.

그런데, 약간 테스트 상에 공정성이 위배되는 것이 있습니다. CriticalSection은 블록으로 썼으면서,

ULONGLONG t0 = ::GetTickCount64();
for (int i = 0; i < TEST_LOOP; i++) {
    ::EnterCriticalSection(&cs);
    volatile LONG* p = v;
    for (int j = 0; j < cntTest; j++) {
        _asm mov eax, p;
        _asm inc[eax];
        p++;
    }
    ::LeaveCriticalSection(&cs);
}

CAS Lock lock-free 쪽은 매순간 lock을 거는 방식을 썼습니다.

ULONGLONG t1 = ::GetTickCount64();
for (int i = 0; i < TEST_LOOP; i++) {
    volatile LONG* p = v;
    for (int j = 0; j < cntTest; j++) {
        _asm mov eax, p;
        _asm lock inc[eax];
        p++;
    }
}
    
ULONGLONG t2 = ::GetTickCount64();
for (int i = 0; i < TEST_LOOP; i++) {
    volatile LONG* p = v;
    for (int j = 0; j < cntTest; j++) 
    {
        ::InterlockedIncrement(p);
        p++;
    }
}

CAS Lock lock-free를 블록으로 사용하는 방법은 조금 미루고 바로 위에 소개한 2개의 테스트를 좀 볼까요? 우선 _asm으로 인라인 시킨 경우 실행시 기계어가 이렇고,

mov         eax,dword ptr [ebp-0C0h]  
lock inc    byte ptr [eax]  

InterlockedIncrement의 경우 결국 다음과 같은 기계어로 인라인 되므로,

mov         eax,dword ptr [ebp-0F4h]  
mov         ecx,1  
lock xadd   dword ptr [eax],ecx  

별반 큰 차이가 없습니다. 재미있는 것은 기계어가 오히려 1개 더 늘었는데도 "Lock-Free 알고리즘은 과연 빠른가?" 글에 공개된 수치를 보면 InterlockedIncrement의 성능이 근소하게 빠르다는 점입니다.

test =  1 : lock = 202, lock_free 1 = 110, lock_free 2 = 78
test =  2 : lock = 234, lock_free 1 = 171, lock_free 2 = 172
test =  3 : lock = 218, lock_free 1 = 250, lock_free 2 = 234
test =  4 : lock = 234, lock_free 1 = 343, lock_free 2 = 281
test =  5 : lock = 234, lock_free 1 = 437, lock_free 2 = 358
test =  6 : lock = 234, lock_free 1 = 515, lock_free 2 = 421
test =  7 : lock = 250, lock_free 1 = 593, lock_free 2 = 499
test =  8 : lock = 250, lock_free 1 = 686, lock_free 2 = 562
test =  9 : lock = 265, lock_free 1 = 733, lock_free 2 = 624
test = 10 : lock = 281, lock_free 1 = 811, lock_free 2 = 702




그나저나, CAS Lock lock-free를 블록으로 사용하는 방법이 뭘까요? 예전에 이에 대해 한번 소개해 드렸었지요. ^^

CAS Lock lock-free 방식이 과연 성능에 얼마나 도움이 될까요?
; https://www.sysnet.pe.kr/2/0/1458

저 역시 위의 글에서 C#의 경우 lock 코드가 CAS Lock lock-free보다 더 빠르다고 결론을 내렸었습니다. 따라서 저 글의 코드를 유사하게 가져다가 테스트를 할 수 있습니다.

volatile unsigned int _lockVariable = 0;
ULONGLONG t3 = ::GetTickCount64();
for (int i = 0; i < TEST_LOOP; i++) {
    volatile LONG* p = v;
    while (::InterlockedCompareExchange(&_lockVariable, 1, 0) != 0)
    {
    }

    for (int j = 0; j < cntTest; j++)
    {
        _asm mov eax, p;
        _asm inc[eax];
        p++;
    }

    _lockVariable = 0;
}

테스트 결과가 궁금하지 않으세요? ^^ 다음은 제 컴퓨터에서 수행한 것입니다.

test = 1 : lock = 203, lock_free 1 = 78, lock_free 2 = 78, lock_free 3 = 250
test = 2 : lock = 188, lock_free 1 = 125, lock_free 2 = 125, lock_free 3 = 265
test = 3 : lock = 203, lock_free 1 = 204, lock_free 2 = 187, lock_free 3 = 266
test = 4 : lock = 218, lock_free 1 = 250, lock_free 2 = 235, lock_free 3 = 281
test = 5 : lock = 219, lock_free 1 = 312, lock_free 2 = 297, lock_free 3 = 297
test = 6 : lock = 234, lock_free 1 = 360, lock_free 2 = 359, lock_free 3 = 313
test = 7 : lock = 234, lock_free 1 = 422, lock_free 2 = 422, lock_free 3 = 328
test = 8 : lock = 266, lock_free 1 = 500, lock_free 2 = 484, lock_free 3 = 359
test = 9 : lock = 266, lock_free 1 = 547, lock_free 2 = 547, lock_free 3 = 375
test = 10 : lock = 281, lock_free 1 = 609, lock_free 2 = 594, lock_free 3 = 391

오호~~~ 그래도 CriticalSection보다 성능이 낮군요. 그러나 이것은 DEBUG 빌드의 결과물입니다. Release 빌드로 하면 상황이 역전됩니다.

test = 1 : lock = 187, lock_free 1 = 78, lock_free 2 = 47, lock_free 3 = 109
test = 2 : lock = 204, lock_free 1 = 125, lock_free 2 = 109, lock_free 3 = 94
test = 3 : lock = 203, lock_free 1 = 187, lock_free 2 = 157, lock_free 3 = 78
test = 4 : lock = 203, lock_free 1 = 250, lock_free 2 = 203, lock_free 3 = 109
test = 5 : lock = 219, lock_free 1 = 313, lock_free 2 = 265, lock_free 3 = 94
test = 6 : lock = 203, lock_free 1 = 391, lock_free 2 = 312, lock_free 3 = 94
test = 7 : lock = 219, lock_free 1 = 453, lock_free 2 = 359, lock_free 3 = 110
test = 8 : lock = 218, lock_free 1 = 516, lock_free 2 = 406, lock_free 3 = 125
test = 9 : lock = 219, lock_free 1 = 594, lock_free 2 = 453, lock_free 3 = 125
test = 10 : lock = 219, lock_free 1 = 671, lock_free 2 = 500, lock_free 3 = 141

보시는 바와 같이 새롭게 추가한 "lock_free 3" 번의 결과는 CriticalSection 보다 성능이 더 좋습니다.

(첨부한 코드는 "Lock-Free 알고리즘은 과연 빠른가?" 글에 공개된 것에 블록 방식의 lock-free 코드를 추가한 것입니다.)




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]






[최초 등록일: ]
[최종 수정일: 4/27/2023]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 



2014-08-26 12시13분
위에서 제가 제시한 방법은 엄밀히 lock-free라고 볼 수 없고, 그냥 CAS를 이용한 lock을 한 것에 불과합니다. lock-free에 대한 자세한 사항은 다음의 글을 참조하세요. ^^

Chapter 17. Boost.Lockfree
; http://www.boost.org/doc/libs/1_53_0/doc/html/lockfree.html

Ndc2014 시즌 2 : 멀티쓰레드 프로그래밍이 왜 이리 힘드나요? (Lock-free에서 Transactional Memory까지)
; http://www.slideshare.net/zzapuno/ndc2014-2
정성태
2021-05-15 11시48분
정성태

[1]  2  3  4  5  6  7  8  9  10  11  12  13  14  15  ...
NoWriterDateCnt.TitleFile(s)
14000정성태8/18/2025234오류 유형: 979. ERROR: failed to solve: failed to read dockerfile: open Dockerfile: no such file or directory
13999정성태8/15/2025742닷넷: 2355. C# 14 - (8) null 조건부 연산자 개선 - 대입문에도 사용 가능파일 다운로드1
13998정성태8/14/2025809닷넷: 2354. C# 14 - (7) 확장 메서드에 정적 메서드와 속성 지원을 위한 전용 구문 추가파일 다운로드1
13997정성태8/14/2025962Linux: 120. docker 컨테이너로 매핑된 볼륨에 컨테이너 측의 사용자 ID를 유지하면서 복사하는 방법
13996정성태8/13/2025568오류 유형: 978. Unable to find the requested .Net Framework Data Provider.
13995정성태8/13/2025625개발 환경 구성: 754. Visual C++ - 리눅스 빌드를 위한 Ubuntu 18 docker 컨테이너 설정
13994정성태8/12/2025642오류 유형: 977. SQL Server - User, group, or role '...' already exists in the current database. (Microsoft SQL Server, Error: 15023)
13993정성태8/11/2025971오류 유형: 976. Microsoft.ML.OnnxRuntimeGenAI 패키지 사용 시 "cublasLt64_12.dll" which is missing. (Error 126: "The specified module could not be found.") 오류
13992정성태8/11/20251151닷넷: 2353. C# - Foundry Local을 이용한 gpt-oss-20b 모델 사용파일 다운로드1
13991정성태8/9/20251078오류 유형: 975. winget - Foundry Local 패키지 업데이트가 안 되는 문제
13990정성태8/8/2025828Windows: 283. Time zone 설정이 없는 Windows Server 2025
13989정성태8/8/20251216닷넷: 2352. C# - Windows S-mode 환경인지 체크하는 방법파일 다운로드1
13988정성태8/8/20251360오류 유형: 974. 비주얼 스튜디오 업데이트 시 잠김 파일 경고 - Visual Studio Standard Collector Service 150 (VSStandardCollectorService150)
13987정성태8/7/20251027닷넷: 2351. C# 14 - (6) event와 생성자에도 partial 메서드 적용파일 다운로드1
13986정성태8/6/20251104닷넷: 2350. C# 14 - (5) 람다 매개 변수에 접근자가 있는 경우에도 타입 생략 가능파일 다운로드1
13985정성태8/6/20251463오류 유형: 973. "wsl --install" 명령어 수행 시 "The server name or address could not be resolved"
13984정성태8/6/20251240Windows: 282. 윈도우 운영체제에 추가된 ssh 서버(Win32-OpenSSH)
13983정성태8/4/20251324오류 유형: 972. Microsoft.Data.SqlClient 6.1.0 버전부터 .NET 8 이상만 지원
13982정성태8/2/20251739개발 환경 구성: 753. CentOS 7 컨테이너 내에서 openssh 서버 호스팅
13981정성태8/1/20251397오류 유형: 971. CentOS 7에서 yum 사용 시 "Could not resolve host: mirrorlist.centos.org; Unknown error"
13980정성태7/31/20251577Linux: 119. eBPF - BPF_PROG_TYPE_CGROUP_SOCK 유형에서 정상 동작하지 않는 BPF_CORE_READ (2)
13979정성태7/30/20251872Linux: 118. eBPF - BPF_PROG_TYPE_CGROUP_SOCK 유형에서 정상 동작하지 않는 BPF_CORE_READ
13978정성태7/29/20251705오류 유형: 970. 파일 복사 시 "Data error (cyclic redundancy check). (0x80070017)" 에러
13977정성태7/28/20252020닷넷: 2349. C# 14 - (4) 문자열 리터럴을 utf-8 인코딩으로 저장파일 다운로드1
13976정성태7/25/20251865닷넷: 2348. C# - 카카오 카나나 모델 + Microsoft.ML.OnnxRuntimeGenAI 예제파일 다운로드1
[1]  2  3  4  5  6  7  8  9  10  11  12  13  14  15  ...