Microsoft MVP성태의 닷넷 이야기
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일

C# - Thread.Suspend 호출 시 응용 프로그램 hang 현상

닷넷에서, 다른 스레드의 콜 스택을 얻는 여러 가지 방법이 있지만,

.NET에서의 스레드 콜 스택 덤프
; https://www.sysnet.pe.kr/2/0/802

"Stack Walking" in the .NET Runtime
; https://mattwarren.org/2019/01/21/Stackwalking-in-the-.NET-Runtime/

그중에서 (제 경험으로는) 가장 안정적인 것은 System.Diagnostics.StackTrace를 이용하는 방법이었습니다. 그런데, 이것을 사용하기 위해서는 대상 스레드를 반드시 Suspend 시켜야 합니다. 그리고 Suspend 메서드의 경우,

Thread.Suspend Method
; https://docs.microsoft.com/en-us/dotnet/api/system.threading.thread.suspend

주의 사항으로 다음과 같은 문구가 있습니다.

Do not use the Suspend and Resume methods to synchronize the activities of threads. You have no way of knowing what code a thread is executing when you suspend it. If you suspend a thread while it holds locks during a security permission evaluation, other threads in the AppDomain might be blocked. If you suspend a thread while it is executing a class constructor, other threads in the AppDomain that attempt to use that class are blocked. Deadlocks can occur very easily.


hang 현상은 다음과 같은 코드로 쉽게 재현이 가능합니다.

using System;
using System.Collections.Generic;
using System.Threading;

namespace ConsoleApp1
{
    class Program
    {
        List<Thread> _threads = new List<Thread>();

        static void Main(string[] args)
        {
            Program pg = new Program();
            pg.Start();
            Console.ReadLine();
        }

        int _count = 0;
        int _gcCount = 0;

        private void Start()
        {
            for (int i = 0; i < 4; i++)
            {
                Thread t = new Thread(threadFunc);
                _threads.Add(t);
                t.IsBackground = true;
                t.Name = i.ToString();
                t.Start();
            }

            Thread.Sleep(5000);
            Random rd = new Random(Environment.TickCount);

            while (true)
            {
                _count++;
                int idx = rd.Next(0, _threads.Count - 1);
                Thread t = _threads[idx];

                {
                    GetCallStack(t);
                }

                _gcCount = GC.CollectionCount(2);

                if (_count % 100 == 0)
                {
                    Console.WriteLine(_count + ": " + _gcCount);
                }
            }
        }

        private static string GetCallStack(Thread t)
        {
            System.Diagnostics.StackTrace trace = null;
            t.Suspend();
            try
            {
                trace = new System.Diagnostics.StackTrace(t, false);
                return trace.ToString();
            }
            catch
            {
            }
            finally
            {
                try
                {
                    t.Resume();
                }
                catch { }
            }

            return "";
        }

        private static void threadFunc()
        {
            List<byte[]> _bufs = new List<byte[]>();

            while (true)
            {
                byte[] buf1 = new byte[4096 * 512];
                lock (_bufs)
                {
                    _bufs.Add(buf1);

                    if (_bufs.Count >= 2)
                    {
                        _bufs.Clear();
                    }
                }

                Thread.Sleep(10);
            }
        }
    }
}

/*

app.config

<?xml version="1.0" encoding="utf-8" ?>
<configuration>
    <startup> 
        <supportedRuntime version="v4.0" sku=".NETFramework,Version=v4.7.1" />
    </startup>

    <runtime>
        <gcServer enabled="true"/>
    </runtime>
</configuration>

*/

실행해 보면, 무작위 시점에서 응용 프로그램이 멈추는 것을 확인할 수 있습니다.

이유는 간단합니다. 스레드 하나가 new로 관리 힙에 객체를 생성하다가 어느 순간 GC가 필요하다고 판단될 때가 있습니다. 하지만, GC를 수행하는 스레드는 GC 작업을 수행해도 안전한지에 대해 다른 스레드들의 상태를 확인합니다. 각각의 스레드는 GC 작업을 해도 괜찮은지에 대한 상태를 Preemptive와 Cooperative로 나눠 구분하는데, 전자의 경우가 안전한 것이고 후자의 상태에 있는 스레드가 있다면 GC 스레드는 GC 작업을 수행하지 않고 대상 스레드가 Cooperative에서 Preemptive 상태로 바뀔 때까지 대기하게 됩니다.

다시 정리해 보면, A 스레드가 GC를 수행해야 한다고 판단했고 다른 스레드의 상태를 체크하는 코드를 수행 중입니다. 그런데 바로 그 시점에 B 스레드가 A 스레드를 Suspend 시키고 A 스레드의 호출 스택을 가져오려고 합니다. 여기서 문제는, 호출 스택을 가져오려는 그 동작조차도 "new"로 인한 관리 힙을 사용하려고 시도하기 때문에 관리 힙이 GC를 위한 준비 상태이므로 GC 작업이 끝날 때까지 대기하게 됩니다. 결국 B 스레드는 A 스레드를 Resume하지 못하고 대기하므로 이 시점부터 응용 프로그램의 모든 스레드에서 "new"를 호출하기만 하면 대기 상태에 빠지게 됩니다. 한마디로, 응용 프로그램 레벨에서 hang 상태에 빠지는 것입니다.

(첨부 파일은 이 글의 예제 코드를 포함합니다.)




이 사례에 비춰서 "If you suspend a thread while it holds locks during a security permission evaluation" 구문도 유추할 수 있습니다. 즉, 보안 권한에 대한 평가를 위해 내부적으로 CLR은 lock을 획득한다는 것이고, 그 상태의 스레드를 Suspend 시킨 측의 스레드가 Resume을 호출하기 전 역시 보안 권한에 대한 평가를 하는 코드를 호출하게 된다면... 으로 해석할 수 있습니다.




(2020-10-09 업데이트) 이런 문제를 방지하려면 GC 수행이 있을 것이라는 감지를 하면 될 텐데, 이게 또 쉽지 않습니다. ^^; 일례로 다음의 글에 보면,

Thread.Suspend Method
; https://mattwarren.org/2016/08/08/GC-Pauses-and-Safe-Points/

ETW를 이용해 GC의 실행 예측을 할 수 있지만,
  1. GCSuspendEE_V1
  2. GCSuspendEEEnd_V1 <- suspension is done
  3. GCStart_V1
  4. GCEnd_V1 <- actual GC is done
  5. GCRestartEEBegin_V1
  6. GCRestartEEEnd_V1 <- resumption is done.
아쉽게도 예전에 설명했듯이 ETW는 실시간이 아니므로,

ETW(Event Tracing for Windows)를 이용한 닷넷 프로그램의 내부 이벤트 활용
; https://www.sysnet.pe.kr/2/0/12244

C# - ETW 관련 Win32 API 사용 예제 코드 (4) CLR ETW Consumer
; https://www.sysnet.pe.kr/2/0/12300

스레드 제어 시 사용할 수 없습니다. 또 다른 방법으로, CLR Profiler 관련한 GC 이벤트를 받는 것인데 이것은 실시간은 만족하지만 이로 인한 부하가 심해져,

windbg 분석 사례 - 닷넷 프로파일러의 GC 콜백 부하
; https://www.sysnet.pe.kr/2/0/10897

역시 현실적인 수준에서 사용할 수 없습니다.
(혹시 좋은 방법이 있으신 분은 덧글 부탁드립니다. ^^)




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]


donaricano-btn



[최초 등록일: ]
[최종 수정일: 7/10/2021

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 쓴 사람
 




[1]  2  3  4  5  6  7  8  9  10  11  12  13  14  15  ...
NoWriterDateCnt.TitleFile(s)
12839정성태9/15/2021217.NET Framework: 1118. C# 10 - (17) 제네릭 타입의 특성 적용파일 다운로드1
12838정성태9/13/2021213.NET Framework: 1117. C# - Task에 전달한 Action, Func 유형에 따라 달라지는 async/await 비동기 처리 [2]파일 다운로드1
12837정성태9/11/2021117VC++: 151. Golang - fmt.Errorf, errors.Is, errors.As 설명
12836정성태9/10/202183Linux: 45. 리눅스 - 실행 중인 다른 프로그램의 출력을 확인하는 방법
12835정성태9/7/2021158.NET Framework: 1116. C# 10 - (16) CallerArgumentExpression 특성 추가파일 다운로드1
12834정성태9/7/202175오류 유형: 762. Visual Studio 2019 Build Tools - 'C:\Program' is not recognized as an internal or external command, operable program or batch file.
12833정성태9/6/2021121VC++: 150. Golang - TCP client/server echo 예제 코드파일 다운로드1
12832정성태9/6/202180VC++: 149. Golang - 인터페이스 포인터가 의미 있을까요?
12831정성태9/6/2021110VC++: 148. Golang - 채널에 따른 다중 작업 처리파일 다운로드1
12830정성태9/6/202171오류 유형: 761. Internet Explorer에서 파일 다운로드 시 "Your current security settings do not allow this file to be downloaded." 오류
12829정성태9/5/2021201.NET Framework: 1115. C# 10 - (15) 구조체 타입에 기본 생성자 정의 가능파일 다운로드1
12828정성태9/4/2021192.NET Framework: 1114. C# 10 - (14) 단일 파일 내에 적용되는 namespace 선언파일 다운로드1
12827정성태9/4/2021112스크립트: 27. 파이썬 - 웹 페이지 데이터 수집을 위한 scrapy Crawler 사용법 요약
12826정성태9/3/2021168.NET Framework: 1113. C# 10 - (13) 문자열 보간 성능 개선파일 다운로드1
12825정성태9/3/202169개발 환경 구성: 603. GoLand - WSL 환경과 연동
12824정성태9/2/2021140오류 유형: 760. 파이썬 tensorflow - Dst tensor is not initialized. 오류 메시지
12823정성태9/2/2021164스크립트: 26. 파이썬 - PyCharm을 이용한 fork 디버그 방법
12822정성태9/1/202197오류 유형: 759. 파이썬 tensorflow - ValueError: Shapes (...) and (...) are incompatible
12821정성태9/1/2021150.NET Framework: 1112. C# - .NET 6부터 공개된 ISpanFormattable 사용법
12820정성태9/1/202187VC++: 147. Golang - try/catch에 대응하는 panic/recover파일 다운로드1
12819정성태8/31/2021182.NET Framework: 1111. C# - FormattableString 타입
12818정성태8/31/2021118Windows: 198. 윈도우 - 작업 관리자에서 (tensorflow 등으로 인한) GPU 연산 부하 보는 방법
12817정성태8/31/202176스크립트: 25. 파이썬 - 윈도우 환경에서 directml을 이용한 tensorflow의 AMD GPU 사용 방법
12816정성태8/30/2021319스크립트: 24. 파이썬 - tensorflow 2.6 NVidia GPU 사용 방법 [2]
12815정성태8/30/2021199개발 환경 구성: 602. WSL 2 - docker-desktop-data, docker-desktop (%LOCALAPPDATA%\Docker\wsl\data\ext4.vhdx) 파일을 다른 디렉터리로 옮기는 방법
[1]  2  3  4  5  6  7  8  9  10  11  12  13  14  15  ...