Microsoft MVP성태의 닷넷 이야기
닷넷: 2353. C# - Foundry Local을 이용한 gpt-oss-20b 모델 사용 [링크 복사], [링크+제목 복사],
조회: 743
글쓴 사람
정성태 (seongtaejeong at gmail.com)
홈페이지
첨부 파일

(시리즈 글이 6개 있습니다.)
개발 환경 구성: 748. Windows + Foundry Local - 로컬에서 AI 모델 활용
; https://www.sysnet.pe.kr/2/0/13943

닷넷: 2337. C# - Hugging Face에 공개된 LLM 모델을 Foundry Local에서 사용하는 방법
; https://www.sysnet.pe.kr/2/0/13954

닷넷: 2338. C# / Foundry Local - Phi-4-multimodal 모델을 사용하는 방법
; https://www.sysnet.pe.kr/2/0/13957

닷넷: 2339. C# - Phi-4-multimodal 모델의 GPU 가속 방법 (ORT 사용)
; https://www.sysnet.pe.kr/2/0/13958

닷넷: 2348. C# - 카카오 카나나 모델 + Microsoft.ML.OnnxRuntimeGenAI 예제
; https://www.sysnet.pe.kr/2/0/13976

닷넷: 2353. C# - Foundry Local을 이용한 gpt-oss-20b 모델 사용
; https://www.sysnet.pe.kr/2/0/13992




C# - Foundry Local을 이용한 gpt-oss-20b 모델 사용

오호~~~ 최근 OpenAI에서 GPT OSS 20B 모델을 공개했는데요, Hugging Face에도 올라온 상태입니다.

openai/gpt-oss-20b
; https://huggingface.co/openai/gpt-oss-20b/blob/main/config.json

아쉽게도 "GptOssForCausalLM" 구조라 olive를 이용한 ONNX 포맷으로의 전환이 안 되는 유형이었는데, 마이크로소프트에서 발 빠르게 이것을 Foundry Local에 기본 지원 모델로 포함시켰기 때문에,

Available today: gpt-oss-20B Model on Windows with GPU Acceleration – further pushing the boundaries on the edge
; https://blogs.windows.com/windowsdeveloper/2025/08/05/available-today-gpt-oss-20b-model-on-windows-with-gpu-acceleration-further-pushing-the-boundaries-on-the-edge/

지난 글에서 설명한 방법대로 C#에서도 손쉽게 접근할 수 있습니다.

Windows + Foundry Local - 로컬에서 AI 모델 활용
; https://www.sysnet.pe.kr/2/0/13943




그래도 한번 실습을 해볼까요? ^^ 일단 olive 변환은 할 수 없으니, Foundry Local을 이용해 다음과 같이 다운로드할 수 있습니다.

C:\temp> foundry model download gpt-oss-20B
Downloading gpt-oss-20b-cuda-gpu...
[####################################] 100.00 % [Time remaining: about 0s]        36.9 MB/s
Tips:
- To find model cache location use: foundry cache location
- To find models already downloaded use: foundry cache ls

이후 OpenAI 패키지로 Foundry Local과 연동해 이런 식으로 코딩할 수 있습니다.

using OpenAI;
using OpenAI.Chat;
using System.ClientModel;

namespace ConsoleApp1;

internal class Program
{
    // Install-Package OpenAI 
    static void Main(string[] args)
    {
        string ep = "http://localhost:5273/v1";
        string key = "OPENAI_API_KEY";
        string alias = "gpt-oss-20b-cuda-gpu";

        OpenAIClientOptions options = new OpenAIClientOptions();
        options.Endpoint = new Uri(ep);

        ApiKeyCredential akc = new ApiKeyCredential(key);
        ChatClient client = new(alias, akc, options);

        ChatCompletion completion = client.CompleteChat("하늘이 파란 이유는?'");

        foreach (var message in completion.Content)
        {
            Console.WriteLine($"[{message.Kind}]: {message.Text}");
        }
    }
}

/* 실행 결과:

[Text]: <|channel|>analysis<|message|>The user says: "하늘이 파란 이유는?" in Korean, which translates to "The reason why the sky is blue?" The question is likely about the reason behind Rayleigh scattering, color of sky because of scattering of shorter wavelengths of visible light off atmosphere, etc.

We need to respond. The user didn't give any context besides asking. They just say in Korean: "The reason the sky is blue?" So answer: It's due to Rayleigh scattering causing blue light to be scattered more.

We can provide explanation: solar light: white, but Earth's atmosphere scatters more of blue wavelengths, causing blue sky.

So just answer like: "태양빛이 투과하면서 대기 중 분자와 아주 작은 입자에 의해 산란된 파장에서 가장 짧은 파장이 산란이 가장 잘 일어나므로..." or we can keep simple.

We can also mention the "Huygens–Fresnel principle" or "Mie scattering
*/

참고로, 모델 용량이 11GB 정도여서 그런지 초기 로딩 시간이 꽤 걸리는군요. ^^

(첨부 파일은 이 글의 예제 코드를 포함합니다.)




Foundry Local을 통해 다운로드한 모델의 경우 .\Microsoft\gpt-oss-20b-cuda-gpu\v1 디렉터리에 genai_config.json 파일이 함께 있습니다. 아하... 그렇다면 Microsoft.ML.OnnxRuntimeGenAI 패키지를 이용하는 것도 가능하다는 의미일 텐데요,

using Microsoft.ML.OnnxRuntimeGenAI;
using System.Reflection;
using System.Reflection.Emit;

namespace ConsoleApp2;

internal class Program
{
    // Install-Package Microsoft.ML.OnnxRuntimeGenAI.CUDA

    static void Main(string[] args)
    {
        // cuDNN 필요
        string? path = Environment.GetEnvironmentVariable("PATH");
        path += @";C:\Program Files\NVIDIA\CUDNN\v9.10\bin\12.9";
        Environment.SetEnvironmentVariable("PATH", path);

        string modelPath = @"C:\foundry_cache\Microsoft\gpt-oss-20b-cuda-gpu\v1";

        Console.Write("Loading model from " + modelPath + "...");
        using Model model = new(modelPath);
        Console.Write("Done\n");
        using Tokenizer tokenizer = new(model);
        using TokenizerStream tokenizerStream = tokenizer.CreateStream();

        while (true)
        {
            Console.Write("User:");

            string prompt = "<|im_start|>user\n" +
                            Console.ReadLine() +
                            "<|im_end|>\n<|im_start|>assistant\n";
            var sequences = tokenizer.Encode(prompt);

            using GeneratorParams gParams = new GeneratorParams(model);
            gParams.SetSearchOption("max_length", 2400);
            using Generator generator = new(model, gParams);
            generator.AppendTokenSequences(sequences);

            Console.Out.Write("\nAI:");
            while (!generator.IsDone())
            {
                generator.GenerateNextToken();
                var token = generator.GetSequence(0)[^1];
                Console.Out.Write(tokenizerStream.Decode(token));
                Console.Out.Flush();
            }
            Console.WriteLine();
        }
    }
}

아쉽게도 실행해 보면 이런 오류가 발생합니다.

Loading model from C:\foundry_cache\Microsoft\gpt-oss-20b-cuda-gpu\v1...Unhandled exception. Microsoft.ML.OnnxRuntimeGenAI.OnnxRuntimeGenAIException: Load model from E:\foundry_cache\Microsoft\gpt-oss-20b-cuda-gpu\v1\model.onnx failed:This is an invalid model. In Node, ("/model/layers.0/attn/GroupQueryAttention", GroupQueryAttention, "com.microsoft", -1) : ("/model/layers.0/attn/qkv_proj/Add/output_0": tensor(float16),"","","past_key_values.0.key": tensor(float16),"past_key_values.0.value": tensor(float16),"/model/attn_mask_reformat/attn_mask_subgraph/Sub/Cast/output_0": tensor(int32),"/model/attn_mask_reformat/attn_mask_subgraph/Gather/Cast/output_0": tensor(int32),"cos_cache": tensor(float16),"sin_cache": tensor(float16),"","","model.layers.0.attn.sinks": tensor(float16),) -> ("/model/layers.0/attn/GroupQueryAttention/output_0": tensor(float16),"present.0.key": tensor(float16),"present.0.value": tensor(float16),) , Error Node(/model/layers.0/attn/GroupQueryAttention) with schema(com.microsoft::GroupQueryAttention:1) has input size 12 not in range [min=7, max=11].
at Microsoft.ML.OnnxRuntimeGenAI.Model..ctor(String modelPath)
at ConsoleApp2.Program.Main(String[] args)


음... 아마도 Microsoft.ML.OnnxRuntimeGenAI 패키지가 업데이트되기를 기다려야 할 것 같습니다. ^^ (기록을 보니까 불과 5일 전에 0.9.0 업데이트가 되었는데 그 버전이 안 됩니다.)




혹시나 Foundry Local에서 gpt-oss-20B 모델을 찾지 못한다고 나오면?

C:\foundry_cache> foundry model run gpt-oss-20B
Exception: Model gpt-oss-20B not found

지난 버전의 Foundry Local을 사용하고 있는 경우인데요, 최신 버전으로 업데이트하면 됩니다.




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]







[최초 등록일: ]
[최종 수정일: 8/12/2025]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 




... 31  [32]  33  34  35  36  37  38  39  40  41  42  43  44  45  ...
NoWriterDateCnt.TitleFile(s)
13219정성태1/18/202314258Windows: 220. 네트워크의 인터넷 접속 가능 여부에 대한 판단 기준
13218정성태1/17/202314107VS.NET IDE: 178. Visual Studio 17.5 (Preview 2) - 포트 터널링을 이용한 웹 응용 프로그램의 외부 접근 허용
13217정성태1/13/202314930디버깅 기술: 185. windbg - 64비트 운영체제에서 작업 관리자로 뜬 32비트 프로세스의 덤프를 sos로 디버깅하는 방법
13216정성태1/12/202313723디버깅 기술: 184. windbg - 32비트 프로세스의 메모리 덤프인 경우 !peb 명령어로 나타나지 않는 환경 변수
13215정성태1/11/202317881Linux: 56. 리눅스 - /proc/pid/stat 정보를 이용해 프로세스의 CPU 사용량 구하는 방법 [1]
13214정성태1/10/202317800.NET Framework: 2087. .NET 6부터 SourceGenerator와 통합된 System.Text.Json [1]파일 다운로드1
13213정성태1/9/202314370오류 유형: 836. docker 이미지 빌드 시 "RUN apt install ..." 명령어가 실패하는 이유
13212정성태1/8/202317013기타: 85. 단정도/배정도 부동 소수점의 정밀도(Precision)에 따른 형변환 손실
13211정성태1/6/202317218웹: 42. (https가 아닌) http 다운로드를 막는 웹 브라우저
13210정성태1/5/202315951Windows: 219. 윈도우 x64의 경우 0x00000000`7ffe0000 아래의 주소는 왜 사용하지 않을까요?
13209정성태1/4/202313489Windows: 218. 왜 윈도우에서 가상 메모리 공간은 64KB 정렬이 된 걸까요?
13208정성태1/3/202315782.NET Framework: 2086. C# - Windows 운영체제의 2MB Large 페이지 크기 할당 방법파일 다운로드1
13207정성태12/26/202216624.NET Framework: 2085. C# - gpedit.msc의 "User Rights Assignment" 특권을 코드로 설정/해제하는 방법 [1]파일 다운로드1
13206정성태12/24/202216753.NET Framework: 2084. C# - GetTokenInformation으로 사용자 SID(Security identifiers) 구하는 방법 [4]파일 다운로드1
13205정성태12/24/202214573.NET Framework: 2083. C# - C++과의 연동을 위한 구조체의 fixed 배열 필드 사용 (2)파일 다운로드1
13204정성태12/22/202213690.NET Framework: 2082. C# - (LSA_UNICODE_STRING 예제로) CustomMarshaler 사용법파일 다운로드1
13203정성태12/22/202213719.NET Framework: 2081. C# Interop 예제 - (LSA_UNICODE_STRING 예제로) 구조체를 C++에 전달하는 방법파일 다운로드1
13202정성태12/21/202216927기타: 84. 직렬화로 설명하는 Little/Big Endian파일 다운로드1
13201정성태12/20/202218307오류 유형: 835. PyCharm 사용 시 C 드라이브 용량 부족
13200정성태12/19/202215598오류 유형: 834. 이벤트 로그 - SSL Certificate Settings created by an admin process for endpoint
13199정성태12/19/202215922개발 환경 구성: 656. Internal Network 유형의 스위치로 공유한 Hyper-V의 VM과 호스트가 통신이 안 되는 경우
13198정성태12/18/202216268.NET Framework: 2080. C# - Microsoft.XmlSerializer.Generator 처리 없이 XmlSerializer 생성자를 예외 없이 사용하고 싶다면?파일 다운로드1
13197정성태12/17/202215476.NET Framework: 2079. .NET Core/5+ 환경에서 XmlSerializer 사용 시 System.IO.FileNotFoundException 예외 발생하는 경우파일 다운로드1
13196정성태12/16/202216580.NET Framework: 2078. .NET Core/5+를 위한 SGen(Microsoft.XmlSerializer.Generator) 사용법
13195정성태12/15/202216562개발 환경 구성: 655. docker - bridge 네트워크 모드에서 컨테이너 간 통신 시 --link 옵션 권장 이유
13194정성태12/14/202215726오류 유형: 833. warning C4747: Calling managed 'DllMain': Managed code may not be run under loader lock파일 다운로드1
... 31  [32]  33  34  35  36  37  38  39  40  41  42  43  44  45  ...