Microsoft MVP성태의 닷넷 이야기
글쓴 사람
홈페이지
첨부 파일

.NET Thread 상태가 Cooperative일 때 GC hang 현상 재현 방법

예전 글에서,

C# - Thread.Suspend 호출 시 응용 프로그램 hang 현상
; https://www.sysnet.pe.kr/2/0/11473

각각의 스레드는 GC 작업을 해도 괜찮은지에 대한 상태를 Preemptive와 Cooperative로 나눠 구분하는데, 전자의 경우가 안전한 것이고 후자의 상태에 있는 스레드가 있다면 GC 스레드는 GC 작업을 수행하지 않고 대상 스레드가 Cooperative에서 Preemptive 상태로 바뀔 때까지 대기하게 됩니다.


라고 언급한 적이 있습니다. 이상하네요... 제가 출처를 안 남겼었군요. ^^ 위의 내용은 다음의 글에 있었습니다.

MANAGED DEBUGGING with WINDBG. Managed Heap. Part 1
; https://blogs.msdn.microsoft.com/alejacma/2009/08/13/managed-debugging-with-windbg-managed-heap-part-1/

Preemptive GC indicates what GC mode the thread is in: "enabled" in the table means the thread is in preemptive mode where GC could preempt this thread at any time; "disabled" means the thread is in cooperative mode where GC has to wait the thread to give up its current work (the work is related to GC objects so it can't allow GC to move the objects around). When the thread is executing managed code (the current IP is in managed code), it is always in cooperative mode; when the thread is in Execution Engine (unmanaged code), EE code could choose to stay in either mode and could switch mode at any time; when a thread is outside of CLR (i.e. calling into native code using interop), it is always in preemptive mode.


위에서 보면 스레드가 실행하고 있는 코드 유형에 따라 다음과 같이 3가지 정도로 나눌 수 있습니다.

1. 관리 코드를 실행 중일 때 (즉, IP 레지스터가 관리 코드 영역의 주소를 담고 있을 때)

2. 비관리 코드를 실행 중일 때,
    2.1 CLR의 Execution Engine 내의 비관리 코드를 실행 중일 떄
    2.2 그 이외의 비관리 코드를 실행 중일 때

이 중에서 Cooperative 모드인 경우는 1번과 2.1번에 해당합니다. 그리고 그중에서도 2.1번의 경우에는 preemptive/cooperative 모드 중 하나일 수 있으면서 언제든지 모드 전환을 할 수 있다고 하며, 1번의 경우에는 항상 cooperative 상태라고 합니다.

오호~~~ 그렇다면 cooperative 모드를 쉽게 재현할 수 있겠는데, 가령 다음과 같이 예제 코드를 작성하면 됩니다.

private static void threadFunc()
{
    Console.WriteLine("threadFunc TID: " + AppDomain.GetCurrentThreadId());
    long sum = 0;

    for (long i = 0; i < long.MaxValue; i ++)
    {
        sum += i;
    }

    Console.WriteLine("SUM: " + sum);
}

저 코드의 for-loop 수행 중에는 cooperative 상태라고 떠야 합니다. 실제로 위의 코드를 포함한 콘솔 프로그램을 실행하고 windbg로 연결해 다음과 같이 스레드 상태를 확인할 수 있습니다.

.loadby sos clr

0:007> !threads
ThreadCount:      3
UnstartedThread:  0
BackgroundThread: 2
PendingThread:    0
DeadThread:       0
Hosted Runtime:   no
                                                                                                        Lock  
       ID OSID ThreadOBJ           State GC Mode     GC Alloc Context                  Domain           Count Apt Exception
   0    1 8364 00000236d48851d0    2a020 Preemptive  0000000000000000:0000000000000000 00000236d4869720 1     MTA 
   6    2 82d8 00000236d48cf990    2b220 Preemptive  0000000000000000:0000000000000000 00000236d4869720 0     MTA (Finalizer) 
   7    3 5810 00000236d4909f90    2b220 Cooperative 0000000000000000:0000000000000000 00000236d4869720 0     MTA 

저렇게 코딩했다면 언제나 1개는 Cooperative 모드의 스레드를 확인할 수 있습니다. 그나저나, Cooperative 모드 상태에서는 GC 측에서 해당 스레드가 안전한 영역으로 이동할 때까지 대기해야 한다고 했습니다. 그런데 실제로 해 보면 GC가 잘 호출이 됩니다. 어찌 보면 당연한 건데, 일례로 무한 루프에 빠진 관리 코드가 있다면 해당 프로세스는 영원히 GC가 안 된다는 의미가 되기 때문입니다.

그럼, 문서가 잘못된 걸까요? 그건 아닌 것 같고 Cooperative 모드이면서 아래의 조건에 해당하는 작업을 하는 동안이라는 단서가 붙습니다.

(the work is related to GC objects so it can't allow GC to move the objects around)

이를 재현하기 위해서는 열심히 GC 힙의 객체를 건드리는 코드를 넣어 보면 됩니다.

private static void allocThreadFunc()
{
    Random rand = new Random(Environment.TickCount);

    while (true)
    {
        int count = rand.Next(500, 1000);
        List<int> list = new List<int>();

        for (int i = 0; i < count; i ++)
        {
            list.Add(i);
        }
    }
}

위의 코드를 실행하고 역시 windbg로 연결해 보면 스레드 상태를 다음과 같이 확인할 수 있습니다.

                                               Lock  
       ID OSID ThreadOBJ           State GC Mode     GC Alloc Context                  Domain           Count Apt Exception
   0    1 8364 00000236d48851d0    2a020 Preemptive  0000000000000000:0000000000000000 00000236d4869720 1     MTA 
   6    2 82d8 00000236d48cf990    2b220 Preemptive  0000000000000000:0000000000000000 00000236d4869720 0     MTA (Finalizer) 
   7    3 5810 00000236d4909f90    2b220 Cooperative 0000000000000000:0000000000000000 00000236d4869720 0     MTA 
   8    4 1c94 00000236d490b060    2b220 Cooperative 00000236D67FC9B8:00000236D67FE1B0 00000236d4869720 0     MTA 

혹시, 그럼 저렇게 "GC Alloc Context"에 값이 있는 Cooperative의 스레드가 있을 때는 GC가 구동을 못하는 것 아닐까요?

테스트는 약간 조잡하지만 간단하게 해볼 수 있습니다. 위의 프로그램을 실행하고 Process Explorer를 이용해 allocThreadFunc을 호출하는 스레드를 일시 중지(Suspend)시키는 것입니다. 그다음 windbg의 !threads 명령어로 확인했을 때 GC Alloc Context의 값이 있어야 합니다. 만약, 없다면 다시 ^^ Process Explorer의 스레드 창에서 allocThreadFunc을 재개하고 다시 중지시키는 것입니다.

높은 확률로 GC Alloc Context에 값이 나온 상태의 스레드 중지를 할 수 있을 것입니다. 그런 상태에서 GC.Collect를 호출해 보면,

{
    Console.WriteLine("before: GC.Collect");
    GCCount();
    GC.Collect(2);
    GCCount();
    Console.WriteLine("after: GC.Collect");
    Console.ReadLine();
}

와~~~ 정말 GC.Collect 메서드가 끝나질 않습니다. 이렇게 blocking 된 상태의 !threads 명령어를 보면,

0:008> !threads
ThreadCount:      4
UnstartedThread:  0
BackgroundThread: 3
PendingThread:    0
DeadThread:       0
Hosted Runtime:   no
                                                                                                        Lock  
       ID OSID ThreadOBJ           State GC Mode     GC Alloc Context                  Domain           Count Apt Exception
   0    1 2bb0 000001b5bd072600    2a020 Preemptive  000001B5BEF64860:000001B5BEF667B0 000001b5bd0482f0 1     MTA (GC) 
   3    2 64d0 000001b5bd09d5c0    2b220 Preemptive  0000000000000000:0000000000000000 000001b5bd0482f0 0     MTA (Finalizer) 
   4    3 51a0 000001b5bd0c6700    2b220 Preemptive  0000000000000000:0000000000000000 000001b5bd0482f0 0     MTA 
   5    4  f44 000001b5bd0d5bb0    2b2a2 Cooperative 000001B5BEF62DB8:000001B5BEF647B0 000001b5bd0482f0 0     MTA 

2bb0 == GC.Collect 수행 스레드
f44  == allocThreadFunc 실행 중 suspend된 스레드

GC.Collect를 호출한 스레드에도 "GC Alloc Context" 값이 있고 마지막에 GC 수행 중임을 알리는 "(GC)" 문자열도 보입니다. 이어서 GC.Collect를 수행한 스레드의 콜 스택을 보면,

0:000> k
 # Child-SP          RetAddr           Call Site
00 0000002d`69afe618 00007ffa`18db9252 ntdll!NtWaitForSingleObject+0x14
01 0000002d`69afe620 00007ffa`059d2c77 KERNELBASE!WaitForSingleObjectEx+0xa2
02 0000002d`69afe6c0 00007ffa`059d2c2f clr!LogHelp_NoGuiOnAssert+0x23b87
03 0000002d`69afe700 00007ffa`059d2bb0 clr!LogHelp_NoGuiOnAssert+0x23b3f
04 0000002d`69afe760 00007ffa`05a08854 clr!LogHelp_NoGuiOnAssert+0x23ac0
05 0000002d`69afe7f0 00007ffa`05a06704 clr!LogHelp_NoGuiOnAssert+0x59764
06 0000002d`69afe8e0 00007ffa`05b4bbb3 clr!LogHelp_NoGuiOnAssert+0x57614
07 0000002d`69afe9e0 00007ffa`05b06e7d clr!ClrCreateManagedInstance+0x4a763
08 0000002d`69afea40 00007ffa`05af3efa clr!ClrCreateManagedInstance+0x5a2d
09 0000002d`69afea90 00007ffa`02dfd1fa clr!PreBindAssemblyEx+0x31ca
0a 0000002d`69afeb20 00007ffa`02dfd065 mscorlib_ni!System.GC.Collect(Int32, System.GCCollectionMode, Boolean, Boolean)$##6000E92+0xaa
...[생략]...
16 0000002d`69affa30 00007ffa`0f0aa4cc mscoreei!CorExeMain+0x112
17 0000002d`69affa90 00007ffa`1ab33034 MSCOREE!CorExeMain_Exported+0x6c
18 0000002d`69affac0 00007ffa`1c491431 KERNEL32!BaseThreadInitThunk+0x14
19 0000002d`69affaf0 00000000`00000000 ntdll!RtlUserThreadStart+0x21

GC.Collect 내부 호출 과정 중에 NtWaitForSingleObject에 걸려 있습니다. 만약 이런 상태의 hang이 걸린 경우 덤프를 뜨고 "DebugDiag Analysis"를 돌려 보면 다음과 같은 메시지를 확인할 수 있습니다.

The following threads in ConsoleApp1.dmp are waiting for .net garbage collection to finish. Thread 0 triggered the garbage collection. The gargage collector thread wont start doing its work till the time the threads which have pre-emptive GC disabled have finished executing. The following threads have pre-emptive GC disabled 5,


위에서 "pre-emptive GC disabled" 상태가 바로 Cooperative 모드입니다. 즉, 디버거 스레드 id 5번에 해당하는 스레드가 현재 Cooperative 모드로부터 풀릴 때까지 대기하고 있다는 것입니다. 재미있는 건, 해당 스레드의 호출 스택을 DebugDiag가 더 잘 보여준다는 것입니다. 실제로 다음과 같은 호출 스택을 보여주는데,

ntdll!NtWaitForSingleObject+14 
KERNELBASE!WaitForSingleObjectEx+a2 
clr!CLREventWaitHelper2+3c 
clr!CLREventWaitHelper+1f 
clr!CLREventBase::WaitEx+7c 
clr!ThreadSuspend::SuspendRuntime+32c 
clr!ThreadSuspend::SuspendEE+128 
clr!WKS::GCHeap::GarbageCollectGeneration+b7 
clr!WKS::GCHeap::GarbageCollect+8d 
clr!GCInterface::Collect+6a 
mscorlib_ni!System.GC.Collect(Int32, System.GCCollectionMode, Boolean, Boolean)+aa 
[[InlinedCallFrame] (System.GC._Collect)] System.GC._Collect(Int32, Int32) 
mscorlib_ni!System.GC.Collect(Int32)+15 
ConsoleApp1.Program.Main(System.String[])+173 
...[생략]...
ntdll!RtlUserThreadStart+21 

GC를 수행하기 위해 다른 스레드들이 안전한 지점에 이를 때까지 대기하고 있는 것을 유추해 볼 수 있습니다. 또한, 순수 닷넷 코드만을 실행시키던 threadFunc은 같은 시기에 다음과 같이 GC 작업이 완료되기를 기다리면서 중지 상태로 빠집니다. (즉, GC 수행 준비 기간부터 이미 중지 상태로 빠지는 것입니다.)

ntdll!NtWaitForSingleObject+14 
KERNELBASE!WaitForSingleObjectEx+a2 
clr!CLREventWaitHelper2+3c 
clr!CLREventWaitHelper+1f 
clr!CLREventBase::WaitEx+7c 
clr!WKS::GCHeap::WaitUntilGCComplete+2b 
clr!Thread::RareDisablePreemptiveGC+180 
clr!Thread::RedirectedHandledJITCase+1bf 
[[RedirectedThreadFrame]] 
clr!RedirectedHandledJITCaseForGCThreadControl_Stub+26 
ConsoleApp1.Program.threadFunc()+c6 
...[생략]...
ntdll!RtlUserThreadStart+21 

threadFunc의 저런 상태에 대해 비록 Full Framework은 아니지만 아래의 글에 있는 내용을 참고할 수 있습니다.

NETCF: GC and thread blocking
; https://blogs.msdn.microsoft.com/abhinaba/2009/09/02/netcf-gc-and-thread-blocking/

Before actually running GC the CLR tries to go into a “safe point”. Each thread has a suspend event associated with it and this event is checked by each thread regularly. Before starting GC the CLR enumerates all managed threads and in each of them sets this event. In the next point when the thread checks and finds this event set, it blocks waiting for the event to get reset (which happens when GC is complete).


이 정도면, preemptive/cooperative 모드에 대한 미스터리가 어느 정도 풀린 것 같습니다. ^^

(첨부 파일은 이 글의 예제 코드를 포함합니다.)




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]





[최초 등록일: ]
[최종 수정일: 8/1/2018 ]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer@outlook.com

비밀번호

댓글 쓴 사람
 




... 16  [17]  18  19  20  21  22  23  24  25  26  27  28  29  30  ...
NoWriterDateCnt.TitleFile(s)
11676정성태8/29/20182335.NET Framework: 791. C# - ElasticSearch를 위한 Client 라이브러리 제작파일 다운로드1
11675정성태8/29/20181603오류 유형: 481. The located assembly's manifest definition does not match the assembly reference.
11674정성태8/29/20181896Phone: 12. Xamarin - 기존 리모컨 기능을 핸드폰의 적외선 송신으로 구현파일 다운로드1
11673정성태8/28/20181570오류 유형: 480. Fritzing 실행 시 Ordinal Not Found 오류
11672정성태8/28/20181364오류 유형: 479. 윈도우 - 시스템 설정에서 도메인 참가를 위한 "Change" 버튼이 비활성화된 경우
11671정성태10/23/20183267사물인터넷: 39. 아두이노에서 적외선 송신기 기본 사용법파일 다운로드1
11670정성태10/17/20182662사물인터넷: 38. 아두이노에서 적외선 수신기 기본 사용법파일 다운로드1
11669정성태8/24/20181777개발 환경 구성: 394. 윈도우 환경에서 elasticsearch의 한글 블로그 검색 인덱스 구성
11668정성태8/28/20181773오류 유형: 478. 윈도우 업데이트(KB4458842) 이후 SQL Server 서비스 시작 오류
11667정성태8/28/20181561오류 유형: 477. "Use Unicode UTF-8 for worldwide language support" 옵션 설정 시 SQL Server 2016 설치 오류 [1]
11666정성태8/22/20181485사물인터넷: 37. 아두이노 - 코딩으로 대신하는 오실레이터 회로의 소리 출력파일 다운로드1
11665정성태8/22/20182068사물인터넷: 36. 오실레이터 회로 동작을 아두이노의 코딩으로 구현하는 방법파일 다운로드1
11664정성태8/22/20182347개발 환경 구성: 393. 윈도우 환경에서 elasticsearch의 한글 형태소 분석기 설치
11663정성태8/25/20183019개발 환경 구성: 392. 윈도우 환경에서 curl.exe를 이용한 elasticsearch 6.x 기본 사용법
11662정성태8/21/20181660사물인터넷: 35. 병렬 회로에서의 커패시터파일 다운로드1
11661정성태8/21/20181591사물인터넷: 34. 트랜지스터 동작 - 컬렉터-이미터 간의 저항 측정파일 다운로드1
11660정성태9/4/20181462사물인터넷: 33. 세라믹 커패시터의 동작 방식파일 다운로드1
11659정성태8/19/20181682사물인터넷: 32. 9V 전압에서 테스트하는 PN2222A 트랜지스터파일 다운로드1
11658정성태8/18/20182558사물인터넷: 31. 커패시터와 RC 회로파일 다운로드3
11657정성태8/21/20182092사물인터넷: 30. 릴레이(Relay) 제어파일 다운로드3
11656정성태8/18/20181251사물인터넷: 29. 트랜지스터와 병렬로 연결한 LED파일 다운로드1
11655정성태8/18/20182104사물인터넷: 28. 저항과 병렬로 연결한 LED파일 다운로드1
11654정성태8/18/20181614사물인터넷: 27. 병렬 회로의 저항, 전압 및 전류파일 다운로드1
11653정성태8/18/20181447사물인터넷: 26. 입력 전압에 따른 LED의 전압/저항 변화파일 다운로드1
11652정성태9/11/20181365사물인터넷: 25. 컬렉터 9V, 베이스에 5V와 3.3V 전압으로 테스트하는 C1815 트랜지스터파일 다운로드1
11651정성태9/4/20182646사물인터넷: 24. 9V 전압에서 테스트하는 C1815 트랜지스터파일 다운로드3
... 16  [17]  18  19  20  21  22  23  24  25  26  27  28  29  30  ...