Microsoft MVP성태의 닷넷 이야기
글쓴 사람
홈페이지
첨부 파일

.NET Thread 상태가 Cooperative일 때 GC hang 현상 재현 방법

예전 글에서,

C# - Thread.Suspend 호출 시 응용 프로그램 hang 현상
; https://www.sysnet.pe.kr/2/0/11473

각각의 스레드는 GC 작업을 해도 괜찮은지에 대한 상태를 Preemptive와 Cooperative로 나눠 구분하는데, 전자의 경우가 안전한 것이고 후자의 상태에 있는 스레드가 있다면 GC 스레드는 GC 작업을 수행하지 않고 대상 스레드가 Cooperative에서 Preemptive 상태로 바뀔 때까지 대기하게 됩니다.


라고 언급한 적이 있습니다. 이상하네요... 제가 출처를 안 남겼었군요. ^^ 위의 내용은 다음의 글에 있었습니다.

MANAGED DEBUGGING with WINDBG. Managed Heap. Part 1
; https://blogs.msdn.microsoft.com/alejacma/2009/08/13/managed-debugging-with-windbg-managed-heap-part-1/

Preemptive GC indicates what GC mode the thread is in: "enabled" in the table means the thread is in preemptive mode where GC could preempt this thread at any time; "disabled" means the thread is in cooperative mode where GC has to wait the thread to give up its current work (the work is related to GC objects so it can't allow GC to move the objects around). When the thread is executing managed code (the current IP is in managed code), it is always in cooperative mode; when the thread is in Execution Engine (unmanaged code), EE code could choose to stay in either mode and could switch mode at any time; when a thread is outside of CLR (i.e. calling into native code using interop), it is always in preemptive mode.


위에서 보면 스레드가 실행하고 있는 코드 유형에 따라 다음과 같이 3가지 정도로 나눌 수 있습니다.

1. 관리 코드를 실행 중일 때 (즉, IP 레지스터가 관리 코드 영역의 주소를 담고 있을 때)

2. 비관리 코드를 실행 중일 때,
    2.1 CLR의 Execution Engine 내의 비관리 코드를 실행 중일 떄
    2.2 그 이외의 비관리 코드를 실행 중일 때

이 중에서 Cooperative 모드인 경우는 1번과 2.1번에 해당합니다. 그리고 그중에서도 2.1번의 경우에는 preemptive/cooperative 모드 중 하나일 수 있으면서 언제든지 모드 전환을 할 수 있다고 하며, 1번의 경우에는 항상 cooperative 상태라고 합니다.

오호~~~ 그렇다면 cooperative 모드를 쉽게 재현할 수 있겠는데, 가령 다음과 같이 예제 코드를 작성하면 됩니다.

private static void threadFunc()
{
    Console.WriteLine("threadFunc TID: " + AppDomain.GetCurrentThreadId());
    long sum = 0;

    for (long i = 0; i < long.MaxValue; i ++)
    {
        sum += i;
    }

    Console.WriteLine("SUM: " + sum);
}

저 코드의 for-loop 수행 중에는 cooperative 상태라고 떠야 합니다. 실제로 위의 코드를 포함한 콘솔 프로그램을 실행하고 windbg로 연결해 다음과 같이 스레드 상태를 확인할 수 있습니다.

.loadby sos clr

0:007> !threads
ThreadCount:      3
UnstartedThread:  0
BackgroundThread: 2
PendingThread:    0
DeadThread:       0
Hosted Runtime:   no
                                                                                                        Lock  
       ID OSID ThreadOBJ           State GC Mode     GC Alloc Context                  Domain           Count Apt Exception
   0    1 8364 00000236d48851d0    2a020 Preemptive  0000000000000000:0000000000000000 00000236d4869720 1     MTA 
   6    2 82d8 00000236d48cf990    2b220 Preemptive  0000000000000000:0000000000000000 00000236d4869720 0     MTA (Finalizer) 
   7    3 5810 00000236d4909f90    2b220 Cooperative 0000000000000000:0000000000000000 00000236d4869720 0     MTA 

저렇게 코딩했다면 언제나 1개는 Cooperative 모드의 스레드를 확인할 수 있습니다. 그나저나, Cooperative 모드 상태에서는 GC 측에서 해당 스레드가 안전한 영역으로 이동할 때까지 대기해야 한다고 했습니다. 그런데 실제로 해 보면 GC가 잘 호출이 됩니다. 어찌 보면 당연한 건데, 일례로 무한 루프에 빠진 관리 코드가 있다면 해당 프로세스는 영원히 GC가 안 된다는 의미가 되기 때문입니다.

그럼, 문서가 잘못된 걸까요? 그건 아닌 것 같고 Cooperative 모드이면서 아래의 조건에 해당하는 작업을 하는 동안이라는 단서가 붙습니다.

(the work is related to GC objects so it can't allow GC to move the objects around)

이를 재현하기 위해서는 열심히 GC 힙의 객체를 건드리는 코드를 넣어 보면 됩니다.

private static void allocThreadFunc()
{
    Random rand = new Random(Environment.TickCount);

    while (true)
    {
        int count = rand.Next(500, 1000);
        List<int> list = new List<int>();

        for (int i = 0; i < count; i ++)
        {
            list.Add(i);
        }
    }
}

위의 코드를 실행하고 역시 windbg로 연결해 보면 스레드 상태를 다음과 같이 확인할 수 있습니다.

                                               Lock  
       ID OSID ThreadOBJ           State GC Mode     GC Alloc Context                  Domain           Count Apt Exception
   0    1 8364 00000236d48851d0    2a020 Preemptive  0000000000000000:0000000000000000 00000236d4869720 1     MTA 
   6    2 82d8 00000236d48cf990    2b220 Preemptive  0000000000000000:0000000000000000 00000236d4869720 0     MTA (Finalizer) 
   7    3 5810 00000236d4909f90    2b220 Cooperative 0000000000000000:0000000000000000 00000236d4869720 0     MTA 
   8    4 1c94 00000236d490b060    2b220 Cooperative 00000236D67FC9B8:00000236D67FE1B0 00000236d4869720 0     MTA 

혹시, 그럼 저렇게 "GC Alloc Context"에 값이 있는 Cooperative의 스레드가 있을 때는 GC가 구동을 못하는 것 아닐까요?

테스트는 약간 조잡하지만 간단하게 해볼 수 있습니다. 위의 프로그램을 실행하고 Process Explorer를 이용해 allocThreadFunc을 호출하는 스레드를 일시 중지(Suspend)시키는 것입니다. 그다음 windbg의 !threads 명령어로 확인했을 때 GC Alloc Context의 값이 있어야 합니다. 만약, 없다면 다시 ^^ Process Explorer의 스레드 창에서 allocThreadFunc을 재개하고 다시 중지시키는 것입니다.

높은 확률로 GC Alloc Context에 값이 나온 상태의 스레드 중지를 할 수 있을 것입니다. 그런 상태에서 GC.Collect를 호출해 보면,

{
    Console.WriteLine("before: GC.Collect");
    GCCount();
    GC.Collect(2);
    GCCount();
    Console.WriteLine("after: GC.Collect");
    Console.ReadLine();
}

와~~~ 정말 GC.Collect 메서드가 끝나질 않습니다. 이렇게 blocking 된 상태의 !threads 명령어를 보면,

0:008> !threads
ThreadCount:      4
UnstartedThread:  0
BackgroundThread: 3
PendingThread:    0
DeadThread:       0
Hosted Runtime:   no
                                                                                                        Lock  
       ID OSID ThreadOBJ           State GC Mode     GC Alloc Context                  Domain           Count Apt Exception
   0    1 2bb0 000001b5bd072600    2a020 Preemptive  000001B5BEF64860:000001B5BEF667B0 000001b5bd0482f0 1     MTA (GC) 
   3    2 64d0 000001b5bd09d5c0    2b220 Preemptive  0000000000000000:0000000000000000 000001b5bd0482f0 0     MTA (Finalizer) 
   4    3 51a0 000001b5bd0c6700    2b220 Preemptive  0000000000000000:0000000000000000 000001b5bd0482f0 0     MTA 
   5    4  f44 000001b5bd0d5bb0    2b2a2 Cooperative 000001B5BEF62DB8:000001B5BEF647B0 000001b5bd0482f0 0     MTA 

2bb0 == GC.Collect 수행 스레드
f44  == allocThreadFunc 실행 중 suspend된 스레드

GC.Collect를 호출한 스레드에도 "GC Alloc Context" 값이 있고 마지막에 GC 수행 중임을 알리는 "(GC)" 문자열도 보입니다. 이어서 GC.Collect를 수행한 스레드의 콜 스택을 보면,

0:000> k
 # Child-SP          RetAddr           Call Site
00 0000002d`69afe618 00007ffa`18db9252 ntdll!NtWaitForSingleObject+0x14
01 0000002d`69afe620 00007ffa`059d2c77 KERNELBASE!WaitForSingleObjectEx+0xa2
02 0000002d`69afe6c0 00007ffa`059d2c2f clr!LogHelp_NoGuiOnAssert+0x23b87
03 0000002d`69afe700 00007ffa`059d2bb0 clr!LogHelp_NoGuiOnAssert+0x23b3f
04 0000002d`69afe760 00007ffa`05a08854 clr!LogHelp_NoGuiOnAssert+0x23ac0
05 0000002d`69afe7f0 00007ffa`05a06704 clr!LogHelp_NoGuiOnAssert+0x59764
06 0000002d`69afe8e0 00007ffa`05b4bbb3 clr!LogHelp_NoGuiOnAssert+0x57614
07 0000002d`69afe9e0 00007ffa`05b06e7d clr!ClrCreateManagedInstance+0x4a763
08 0000002d`69afea40 00007ffa`05af3efa clr!ClrCreateManagedInstance+0x5a2d
09 0000002d`69afea90 00007ffa`02dfd1fa clr!PreBindAssemblyEx+0x31ca
0a 0000002d`69afeb20 00007ffa`02dfd065 mscorlib_ni!System.GC.Collect(Int32, System.GCCollectionMode, Boolean, Boolean)$##6000E92+0xaa
...[생략]...
16 0000002d`69affa30 00007ffa`0f0aa4cc mscoreei!CorExeMain+0x112
17 0000002d`69affa90 00007ffa`1ab33034 MSCOREE!CorExeMain_Exported+0x6c
18 0000002d`69affac0 00007ffa`1c491431 KERNEL32!BaseThreadInitThunk+0x14
19 0000002d`69affaf0 00000000`00000000 ntdll!RtlUserThreadStart+0x21

GC.Collect 내부 호출 과정 중에 NtWaitForSingleObject에 걸려 있습니다. 만약 이런 상태의 hang이 걸린 경우 덤프를 뜨고 "DebugDiag Analysis"를 돌려 보면 다음과 같은 메시지를 확인할 수 있습니다.

The following threads in ConsoleApp1.dmp are waiting for .net garbage collection to finish. Thread 0 triggered the garbage collection. The gargage collector thread wont start doing its work till the time the threads which have pre-emptive GC disabled have finished executing. The following threads have pre-emptive GC disabled 5,


위에서 "pre-emptive GC disabled" 상태가 바로 Cooperative 모드입니다. 즉, 디버거 스레드 id 5번에 해당하는 스레드가 현재 Cooperative 모드로부터 풀릴 때까지 대기하고 있다는 것입니다. 재미있는 건, 해당 스레드의 호출 스택을 DebugDiag가 더 잘 보여준다는 것입니다. 실제로 다음과 같은 호출 스택을 보여주는데,

ntdll!NtWaitForSingleObject+14 
KERNELBASE!WaitForSingleObjectEx+a2 
clr!CLREventWaitHelper2+3c 
clr!CLREventWaitHelper+1f 
clr!CLREventBase::WaitEx+7c 
clr!ThreadSuspend::SuspendRuntime+32c 
clr!ThreadSuspend::SuspendEE+128 
clr!WKS::GCHeap::GarbageCollectGeneration+b7 
clr!WKS::GCHeap::GarbageCollect+8d 
clr!GCInterface::Collect+6a 
mscorlib_ni!System.GC.Collect(Int32, System.GCCollectionMode, Boolean, Boolean)+aa 
[[InlinedCallFrame] (System.GC._Collect)] System.GC._Collect(Int32, Int32) 
mscorlib_ni!System.GC.Collect(Int32)+15 
ConsoleApp1.Program.Main(System.String[])+173 
...[생략]...
ntdll!RtlUserThreadStart+21 

GC를 수행하기 위해 다른 스레드들이 안전한 지점에 이를 때까지 대기하고 있는 것을 유추해 볼 수 있습니다. 또한, 순수 닷넷 코드만을 실행시키던 threadFunc은 같은 시기에 다음과 같이 GC 작업이 완료되기를 기다리면서 중지 상태로 빠집니다. (즉, GC 수행 준비 기간부터 이미 중지 상태로 빠지는 것입니다.)

ntdll!NtWaitForSingleObject+14 
KERNELBASE!WaitForSingleObjectEx+a2 
clr!CLREventWaitHelper2+3c 
clr!CLREventWaitHelper+1f 
clr!CLREventBase::WaitEx+7c 
clr!WKS::GCHeap::WaitUntilGCComplete+2b 
clr!Thread::RareDisablePreemptiveGC+180 
clr!Thread::RedirectedHandledJITCase+1bf 
[[RedirectedThreadFrame]] 
clr!RedirectedHandledJITCaseForGCThreadControl_Stub+26 
ConsoleApp1.Program.threadFunc()+c6 
...[생략]...
ntdll!RtlUserThreadStart+21 

threadFunc의 저런 상태에 대해 비록 Full Framework은 아니지만 아래의 글에 있는 내용을 참고할 수 있습니다.

NETCF: GC and thread blocking
; https://blogs.msdn.microsoft.com/abhinaba/2009/09/02/netcf-gc-and-thread-blocking/

Before actually running GC the CLR tries to go into a “safe point”. Each thread has a suspend event associated with it and this event is checked by each thread regularly. Before starting GC the CLR enumerates all managed threads and in each of them sets this event. In the next point when the thread checks and finds this event set, it blocks waiting for the event to get reset (which happens when GC is complete).


이 정도면, preemptive/cooperative 모드에 대한 미스터리가 어느 정도 풀린 것 같습니다. ^^

(첨부 파일은 이 글의 예제 코드를 포함합니다.)




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]





[최초 등록일: ]
[최종 수정일: 8/1/2018 ]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer@outlook.com

비밀번호

댓글 쓴 사람
 




1  2  3  4  5  6  7  8  9  10  11  [12]  13  14  15  ...
NoWriterDateCnt.TitleFile(s)
11933정성태6/7/20191279VC++: 132. enum 정의를 C++11의 enum class로 바꿀 때 유의할 사항파일 다운로드1
11932정성태6/7/20191015오류 유형: 544. C++ - fatal error C1017: invalid integer constant expression파일 다운로드1
11931정성태6/6/20191153개발 환경 구성: 441. C# - CairoSharp/GtkSharp 사용을 위한 프로젝트 구성 방법
11930정성태6/26/20191435.NET Framework: 842. .NET Reflection을 대체할 System.Reflection.Metadata 소개
11929정성태6/5/2019989.NET Framework: 841. Windows Forms/C# - 클립보드에 RTF 텍스트를 복사 및 확인하는 방법
11928정성태6/5/20191003오류 유형: 543. PowerShell 확장 설치 시 "Catalog file '[...].cat' is not found in the contents of the module" 오류 발생
11927정성태6/5/20191225스크립트: 15. PowerShell ISE의 스크립트를 복사 후 PPT/Word에 붙여 넣으면 한글이 깨지는 문제 [1]
11926정성태6/4/20191373오류 유형: 542. Visual Studio - pointer to incomplete class type is not allowed
11925정성태6/4/20191361VC++: 131. Visual C++ - uuid 확장 속성과 __uuidof 확장 연산자파일 다운로드1
11924정성태5/30/20191442Math: 57. C# - 해석학적 방법을 이용한 최소 자승법 [1]파일 다운로드1
11923정성태5/30/20191215Math: 56. C# - 그래프 그리기로 알아보는 경사 하강법의 최소/최댓값 구하기파일 다운로드1
11922정성태5/30/2019863.NET Framework: 840. ML.NET 데이터 정규화파일 다운로드1
11921정성태5/28/20191331Math: 55. C# - 다항식을 위한 최소 자승법(Least Squares Method)파일 다운로드1
11920정성태5/28/2019999.NET Framework: 839. C# - PLplot 색상 제어
11919정성태5/27/20191288Math: 54. C# - 최소 자승법의 1차 함수에 대한 매개변수를 단순 for 문으로 구하는 방법 [1]파일 다운로드1
11918정성태5/27/20191382Math: 53. C# - 행렬식을 이용한 최소 자승법(LSM: Least Square Method)파일 다운로드1
11917정성태5/24/20191321Math: 52. MathNet을 이용한 간단한 통계 정보 처리 - 분산/표준편차파일 다운로드1
11916정성태5/24/2019934Math: 51. MathNET + OxyPlot을 이용한 간단한 통계 정보 처리 - Histogram파일 다운로드1
11915정성태5/24/20191002Linux: 11. 리눅스의 환경 변수 관련 함수 정리 - putenv, setenv, unsetenv
11914정성태5/24/20191477Linux: 10. 윈도우의 GetTickCount와 리눅스의 clock_gettime파일 다운로드1
11913정성태5/24/2019985.NET Framework: 838. C# - 숫자형 타입의 bit(2진) 문자열, 16진수 문자열 구하는 방법파일 다운로드1
11912정성태5/23/2019920VS.NET IDE: 137. Visual Studio 2019 버전 16.1부터 리눅스 C/C++ 프로젝트에 추가된 WSL 지원
11911정성태5/23/20191000VS.NET IDE: 136. Visual Studio 2019 - 리눅스 C/C++ 프로젝트에 인텔리센스가 동작하지 않는 경우
11910정성태5/24/20191989Math: 50. C# - MathNet.Numerics의 Matrix(행렬) 연산파일 다운로드1
11909정성태5/25/20191444.NET Framework: 837. C# - PLplot 사용 예제 [1]파일 다운로드1
11908정성태5/22/2019957.NET Framework: 836. C# - Python range 함수 구현파일 다운로드1
1  2  3  4  5  6  7  8  9  10  11  [12]  13  14  15  ...