Microsoft MVP성태의 닷넷 이야기
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
(연관된 글이 3개 있습니다.)

CAS Lock lock-free 방식이 과연 성능에 얼마나 도움이 될까요?

CAS Lock lock-free는 명시적인 lock을 사용하지 않고 그와 동일한 효력을 내는 동기화 방식입니다. 그렇긴 해도, 프로세스 간에 동기화를 해주는 Kernel 동기화 객체를 대체할 수는 없고 같은 프로세스에서 CriticalSection의 사용을 대체하는 정도입니다.

Win32 API같은 경우에는 CAS Lock lock-free의 일환으로 spin 카운트를 도입하는데요. 예를 들어, A 스레드가 진입해서 lock을 소유하고 있는 상태에서 B 스레드가 해당 구역에 진입하면 곧바로 lock 대기 상태로 진입하지 않고 일정 시간 동안 루프를 돌면서 lock이 풀렸는지를 계속 체크하는 방식입니다.

그럼, 닷넷에 한번 비교해 볼까요? 닷넷은 Win32의 CriticalSection에 해당하는 것으로 참조개체의 SyncBlock을 이용한 Monitor.Enter/Exit 코드를 사용합니다. C#으로는 lock 키워드로 단축 표기가 되는데요. 이에 대해서는 전에 다음의 글에서 상세하게 다룬 적이 있습니다.

.NET 참조 개체 인스턴스의 SyncBlock을 확인하는 방법
; https://www.sysnet.pe.kr/2/0/1175

닷넷에서 CAS Lock lock-free를 구현하려면 Interlocked.CompareExchange를 사용해야 합니다. 아래의 글에서 자세히 설명되어 있습니다. ^^

Lock-free data structures: the stack 
; http://www.boyet.com/Articles/LockfreeStack.html

CAS(Compare and Swap)라고 일컬어지는 방식인데, 위의 CAS Lock lock-free 방식을 다소 비효율적이지만 약간 더 이해하기 쉽게 바꿔보면 다음과 같습니다.

using System;
using System.Collections.Generic;
using System.Diagnostics;
using System.Threading;

namespace ConsoleApplication1
{
    class Program
    {
        int _count;
        int _lockVariable;

        private void IncrementLockFree()
        {
            while (Interlocked.CompareExchange(ref _lockVariable, 1, 0) != 0)
            {
            }

            _count++;

            _lockVariable = 0;
        }

        private static void TestWithLockFree(int threadCount, int incCount)
        {
            Program pg = new Program();

            List<Thread> list = new List<Thread>();

            for (int i = 0; i < threadCount; i++)
            {
                Thread t = new Thread(
                    (obj) =>
                    {
                        for (int j = 0; j < incCount; j++)
                        {
                            pg.IncrementLockFree();
                        }
                    });
                t.Start(pg);

                list.Add(t);
            }

            list.ForEach((elem) => { elem.Join(); });
        }
    }
}

Interlocked.CompareExchange 메서드는 첫 번째 인자의 값이 세 번째 인자의 값과 같다면 두 번째 인자의 값으로 바꾸는 역할을 합니다. 그리고 그 반환값은 첫 번째 값이 원래 가지고 있던 예전 값이 반환됩니다. 물론, 바뀌지 않았다면 아무런 일도 발생하지 않고 반환값 역시 자신의 값 그대로 나옵니다.

따라서 "while (Interlocked.CompareExchange(ref _lockVariable, 1, 0) != 0)" 문을 최초 진입한 스레드는 _lockVariable 값을 1로 바꾸게 되고 이후의 코드로 진입할 수 있지만, 그 상태에서 두 번째로 진입한 스레드가 있다면 _lockVariable 값이 0이 아니기 때문에 먼저 진입한 스레드가 0으로 다시 돌려 놓지 않는 한 while 문을 무한 반복해서 실행합니다. 이 대목에서 눈치채시겠지만, CAS Lock lock-free는 대기 상태로 진입하지 않는 대신 CPU 자원을 일부러 소모해가면서 동기화를 구현하는 방식입니다. (Win32의 spin count도 이런 방식입니다.)

위의 내용이 이해되셨다면 이제 해당 코드를 "Lock-free data structures: the stack"글에서 구현한 방식으로 바꿔보면 다음과 같습니다.

private void IncrementLockFree()
{
    int count;

    do
    {
        count = _count;
    } while (Interlocked.CompareExchange(ref _count, count + 1, count) != count);
}

이렇게 하는 것이 좀 더 빠르긴 합니다.




그런데, 과연 CAS Lock lock-free 방식이 얼마나 빠를까요? 물론 다양한 상황에서 테스트 해보는 것이 중요하겠지만 여기서는 단순하게 변수의 값을 증가하는 것으로만 국한해서 테스트 해보겠습니다.

테스트는 C#의 lock을 사용한 것과 IncrementLockFree 메소드에 사용한 방식을 비교해 성능을 측정했고 최종 코드는 다음과 같습니다.


using System;
using System.Collections.Generic;
using System.Diagnostics;
using System.Threading;

namespace ConsoleApplication1
{
    class Program
    {
        static void Main(string[] args)
        {
            Tuple[] counts = new Tuple[]
            {
                new Tuple(1, 1), // JIT 컴파일 시간을 배제하기 위해 미리 한 번씩 실행
                new Tuple(100, 10000),
                new Tuple(10000, 1000),
                new Tuple(10, 1000000),
                new Tuple(2, 10000000),
            };

            foreach (var item in counts)
            {
                GC.Collect();
                TestWithMonitor(item.Item1, item.Item2);

                GC.Collect();
                TestWithLockFree(item.Item1, item.Item2);

                Console.WriteLine();
            }
        }

        private static void TestWithMonitor(int threadCount, int incCount)
        {
            Stopwatch st = new Stopwatch();
            Program pg = new Program();

            List<Thread> list = new List<Thread>();

            st.Start();
            for (int i = 0; i < threadCount; i++)
            {
                Thread t = new Thread(
                    (obj) =>
                    {
                        for (int j = 0; j < incCount; j++)
                        {
                            pg.Increment();
                        }
                    });
                t.Start(pg);

                list.Add(t);
            }

            list.ForEach((elem) => { elem.Join(); });
            st.Stop();

            Console.WriteLine(st.ElapsedMilliseconds + "ms: " + pg.Count);
        }

        int _count;
        object _lockInstance = new object();
        public int Count { get { return _count; } }
        private void Increment()
        {
            lock (_lockInstance)
            {
                _count++;
            }
        }

        private void IncrementLockFree()
        {
            int count;

            do
            {
                count = _count;
            } while (Interlocked.CompareExchange(ref _count, count + 1, count) != count);
        }

        private static void TestWithLockFree(int threadCount, int incCount)
        {
            Stopwatch st = new Stopwatch();
            Program pg = new Program();

            List<Thread> list = new List<Thread>();

            st.Start();
            for (int i = 0; i < threadCount; i++)
            {
                Thread t = new Thread(
                    (obj) =>
                    {
                        for (int j = 0; j < incCount; j++)
                        {
                            pg.IncrementLockFree();
                        }
                    });
                t.Start(pg);

                list.Add(t);
            }

            list.ForEach((elem) => { elem.Join(); });
            st.Stop();

            Console.WriteLine(st.ElapsedMilliseconds + "ms: " + pg.Count);
        }
    }
}

아래는 그 결과인데, 물론 스레드 스케쥴링에 따른 오차가 포함될 수 있지만 대체적인 결과를 보면 단순한 lock 코드가 더 빠르다는 것을 알 수 있습니다.

C# lock - 47ms: 1000000
lock-free - 101ms: 1000000

C# lock - 716ms: 10000000
lock-free - 803ms: 10000000

C# lock - 387ms: 10000000
lock-free - 1314ms: 10000000

C# lock - 558ms: 20000000
lock-free - 1183ms: 20000000

다른 활용 사례에서는 CAS Lock lock-free가 빠를 수도 있다는 것을 감안해도 코드의 가독성 측면까지 고려해 본다면 C#의 lock 코드가 더욱 추천됩니다.

(첨부한 파일은 위의 코드를 포함합니다.)




최근에 공개된 인텔 Haswell 아키텍쳐의 CPU에서 TSX(transactional syncronisation extensions)와 메모리 트랜잭션을 제공해 준다는 기사를 보았습니다.

Benchmarks : Haswell's TSX and Memory Transaction Throughput (HLE and RTM)
; http://www.sisoftware.co.uk/?d=qa&f=ben_mem_hle

(윈도우 블루라고 알려진) 윈도우 8.1 빌드가 Haswell을 지원한다고도 하고... 닷넷 프레임워크의 경우 8.1에 포함된 것은 4.5.1 버전일 거라는 소식도 있고... 어찌되었건 닷넷이 Win32를 바탕으로 실행되니 아마도 윈도우 블루에서 실행되는 닷넷 프로그램은 자연스럽게 TSX의 혜택을 입지 않을까 예상해 봅니다.

... 하지만 ^^ 제 노트북의 CPU는 이제 구형이 되어 버렸으니 당분간 기다려야겠군요.




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]






[최초 등록일: ]
[최종 수정일: 4/27/2023]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 



2014-08-26 12시14분
위에서 제가 제시한 방법은 엄밀히 lock-free라고 볼 수 없고, 그냥 CAS를 이용한 lock을 한 것에 불과합니다. lock-free에 대한 자세한 사항은 다음의 글을 참조하세요. ^^

Chapter 17. Boost.Lockfree
; http://www.boost.org/doc/libs/1_53_0/doc/html/lockfree.html

Ndc2014 시즌 2 : 멀티스레드 프로그래밍이 왜 이리 힘드나요? (Lock-free에서 Transactional Memory까지)
; http://www.slideshare.net/zzapuno/ndc2014-2
정성태

1  2  3  4  5  6  7  8  [9]  10  11  12  13  14  15  ...
NoWriterDateCnt.TitleFile(s)
13718정성태8/27/20247432오류 유형: 921. Visual C++ - error C1083: Cannot open include file: 'float.h': No such file or directory [2]
13717정성태8/26/20247023VS.NET IDE: 192. Visual Studio 2022 - Windows XP / 2003용 C/C++ 프로젝트 빌드
13716정성태8/21/20246766C/C++: 167. Visual C++ - 윈도우 환경에서 _execv 동작 [1]
13715정성태8/19/20247382Linux: 78. 리눅스 C/C++ - 특정 버전의 glibc 빌드 (docker-glibc-builder)
13714정성태8/19/20246759닷넷: 2295. C# 12 - 기본 생성자(Primary constructors) (책 오타 수정) [3]
13713정성태8/16/20247486개발 환경 구성: 721. WSL 2에서의 Hyper-V Socket 연동
13712정성태8/14/20247225개발 환경 구성: 720. Synology NAS - docker 원격 제어를 위한 TCP 바인딩 추가
13711정성태8/13/20248074Linux: 77. C# / Linux - zombie process (defunct process) [1]파일 다운로드1
13710정성태8/8/20247999닷넷: 2294. C# 13 - (6) iterator 또는 비동기 메서드에서 ref와 unsafe 사용을 부분적으로 허용파일 다운로드1
13709정성태8/7/20247765닷넷: 2293. C# - safe/unsafe 문맥에 대한 C# 13의 (하위 호환을 깨는) 변화파일 다운로드1
13708정성태8/7/20247548개발 환경 구성: 719. ffmpeg / YoutubeExplode - mp4 동영상 파일로부터 Audio 파일 추출
13707정성태8/6/20247791닷넷: 2292. C# - 자식 프로세스의 출력이 4,096보다 많은 경우 Process.WaitForExit 호출 시 hang 현상파일 다운로드1
13706정성태8/5/20247899개발 환경 구성: 718. Hyper-V - 리눅스 VM에 새로운 디스크 추가
13705정성태8/4/20248167닷넷: 2291. C# 13 - (5) params 인자 타입으로 컬렉션 허용 [2]파일 다운로드1
13704정성태8/2/20248126닷넷: 2290. C# - 간이 dotnet-dump 프로그램 만들기파일 다운로드1
13703정성태8/1/20247450닷넷: 2289. "dotnet-dump ps" 명령어가 닷넷 프로세스를 찾는 방법
13702정성태7/31/20247860닷넷: 2288. Collection 식을 지원하는 사용자 정의 타입을 CollectionBuilder 특성으로 성능 보완파일 다운로드1
13701정성태7/30/20248130닷넷: 2287. C# 13 - (4) Indexer를 이용한 개체 초기화 구문에서 System.Index 연산자 허용파일 다운로드1
13700정성태7/29/20247750디버깅 기술: 200. DLL Export/Import의 Hint 의미
13699정성태7/27/20248251닷넷: 2286. C# 13 - (3) Monitor를 대체할 Lock 타입파일 다운로드1
13698정성태7/27/20248208닷넷: 2285. C# - async 메서드에서의 System.Threading.Lock 잠금 처리파일 다운로드1
13697정성태7/26/20247932닷넷: 2284. C# - async 메서드에서의 lock/Monitor.Enter/Exit 잠금 처리파일 다운로드1
13696정성태7/26/20247468오류 유형: 920. dotnet publish - error NETSDK1047: Assets file '...\obj\project.assets.json' doesn't have a target for '...'
13695정성태7/25/20247455닷넷: 2283. C# - Lock / Wait 상태에서도 STA COM 메서드 호출 처리파일 다운로드1
13694정성태7/25/20247919닷넷: 2282. C# - ASP.NET Core Web App의 Request 용량 상한값 (Kestrel, IIS)
13693정성태7/24/20247244개발 환경 구성: 717. Visual Studio - C# 프로젝트에서 레지스트리에 등록하지 않은 COM 개체 참조 및 사용 방법파일 다운로드1
1  2  3  4  5  6  7  8  [9]  10  11  12  13  14  15  ...