Microsoft MVP성태의 닷넷 이야기
닷넷: 2349. C# 14 - (4) 문자열 리터럴을 utf-8 인코딩으로 저장 [링크 복사], [링크+제목 복사],
조회: 3084
글쓴 사람
정성태 (seongtaejeong at gmail.com)
홈페이지
첨부 파일

(시리즈 글이 12개 있습니다.)
닷넷: 2342. C# 14 - (취소된 글)
; https://www.sysnet.pe.kr/2/0/13970

닷넷: 2343. C# 14 - (1) 속성 구문에서 문맥 키워드로 추가되는 field 예약어
; https://www.sysnet.pe.kr/2/0/13971

닷넷: 2346. C# 14 - (2) Span 타입과 배열 간의 암시적 형변환
; https://www.sysnet.pe.kr/2/0/13974

닷넷: 2347. C# 14 - (3) 형식 인자가 없는 제네릭 타입의 nameof 지원
; https://www.sysnet.pe.kr/2/0/13975

닷넷: 2349. C# 14 - (4) 문자열 리터럴을 utf-8 인코딩으로 저장
; https://www.sysnet.pe.kr/2/0/13977

닷넷: 2350. C# 14 - (5) 람다 매개 변수에 접근자가 있는 경우에도 타입 생략 가능
; https://www.sysnet.pe.kr/2/0/13986

닷넷: 2351. C# 14 - (6) event와 생성자에도 partial 메서드 적용
; https://www.sysnet.pe.kr/2/0/13987

닷넷: 2354. C# 14 - (7) 확장 메서드에 정적 메서드와 속성 지원을 위한 전용 구문 추가
; https://www.sysnet.pe.kr/2/0/13998

닷넷: 2355. C# 14 - (8) null 조건부 연산자 개선 - 대입문에도 사용 가능
; https://www.sysnet.pe.kr/2/0/13999

닷넷: 2357. C# 14 - (9) 새로운 지시자 추가 (Ignored directives)
; https://www.sysnet.pe.kr/2/0/14003

닷넷: 2359. C# 14 - (10) 복합 대입 연산자의 오버로드 지원
; https://www.sysnet.pe.kr/2/0/14008

닷넷: 2360. C# 14 - (11) Expression Tree에 선택적 인수와 명명된 인수 허용
; https://www.sysnet.pe.kr/2/0/14009




C# 14 - (4) 문자열 리터럴을 utf-8 인코딩으로 저장

이번엔 C# 자체의 언어 수준에 대한 변화는 아니고 C# 컴파일러 측의 변경입니다.

String literals in data section
; https://github.com/dotnet/roslyn/blob/main/docs/features/string-literals-data-section.md#eligible-string-literals

기본적으로 C# 컴파일러는 문자열 리터럴을 UTF-16 인코딩으로 저장하고, C# 11부터 추가된 UTF-8 문자열 리터럴의 경우에는 UTF-8 인코딩으로 저장합니다.

그런데, C# 14부터는 (u8 접미사를 붙이지 않은) 일반적인 문자열 리터럴도 UTF-8 인코딩으로 바이너리에 저장하는 옵션이 추가됐습니다. 이를 위해 C# 프로젝트에서는 다음과 같이 설정을 추가하면 되는데요,

<Project Sdk="Microsoft.NET.Sdk">

    <PropertyGroup>
        <OutputType>Exe</OutputType>
        <TargetFramework>net8.0</TargetFramework>
        <ImplicitUsings>enable</ImplicitUsings>
        <Nullable>enable</Nullable>
        <LangVersion>preview</LangVersion>
        <!-- 아래는 0을 지정, 만약 숫자를 지정하지 않으면 기본값 100 -->
        <Features>$(Features);experimental-data-section-string-literals=0</Features>
    </PropertyGroup>

</Project>

그럼, (위에서는 0으로 설정했으므로, 그 이상의 길이를 갖는) 모든 문자열 리터럴을 UTF-8 인코딩으로 저장합니다. 실제로 눈으로 확인해 볼까요? ^^ 이를 위해 간단한 예제를 하나 만들고,

// 아래의 코드로 빌드한 DLL로 테스트
using System;

namespace ConsoleApp1;

internal class Program
{
    static void Main(string[] args)
    {
        string s = "Hello, World!";
        Console.WriteLine(s);
    }
}

일단 csproj 파일에 Features 설정 없이 빌드해 ConsoleApp1.dll 파일을 PE Viewer로 열어 보면,

cs14_string_literals_utf8_0.png

보는 바와 같이 닷넷 메타데이터 영역에 "#US", 즉 "UserString" 섹션에 문자열이 UTF-16 인코딩으로 저장돼 있습니다. 이제 csproj 파일에 Features 옵션을 추가하고 다시 빌드하면,

cs14_string_literals_utf8_1.png

#US 섹션에는 "Hello, World!" 문자열이 없어졌고, 대신 (닷넷 메타데이터가 아닌) PE 포맷의 하나인 ".text" 섹션에 "Hello, World!" 문자열이 UTF-8 인코딩으로 저장된 것을 확인할 수 있습니다.

cs14_string_literals_utf8_2.png




이 기능으로 어떤 성능 향상을 기대할 수 있는 것은 아닙니다. 왜냐하면, 리터럴 데이터만 디스크에 UTF-8로 저장하는 것일 뿐, 어차피 실행 시에는 UTF-16 인코딩으로 변환돼 System.String 타입으로 다뤄져야 하기 때문입니다. 이에 대한 사실을 "Hello, World!" 문자열을 다루기 위해 C# 컴파일러가 생성한 자동 코드를 보면 알 수 있습니다.

using System.Runtime.CompilerServices;
using System.Runtime.InteropServices;
using System.Text;

[CompilerGenerated]
internal sealed class \u003CPrivateImplementationDetails\u003E
{
  internal static readonly \u003CPrivateImplementationDetails\u003E.__StaticArrayInitTypeSize\u003D13 DFFD6021BB2BD5B0AF676290809EC3A53191DD81C7F70A4B28688A362182986F;

  private static unsafe string BytesToString(byte* bytes, int length)
  {
    return Encoding.UTF8.GetString(bytes, length);
  }

  [StructLayout(LayoutKind.Explicit, Size = 13, Pack = 1)]
  internal struct __StaticArrayInitTypeSize\u003D13
  {
  }

  internal sealed class \u003CS\u003E531DF2844447DD5077DB03842CD75395
  {
    internal static readonly string s;

    static unsafe \u003CS\u003E531DF2844447DD5077DB03842CD75395()
    {
      \u003CPrivateImplementationDetails\u003E.\u003CS\u003E531DF2844447DD5077DB03842CD75395.s = \u003CPrivateImplementationDetails\u003E.BytesToString((byte*) &\u003CPrivateImplementationDetails\u003E.DFFD6021BB2BD5B0AF676290809EC3A53191DD81C7F70A4B28688A362182986F, 13);
    }
  }
}

저렇게 정적 생성자 단계에서 "Hello, World!" 문자열을 UTF-16 인코딩으로 변환해 System.String 타입으로 들고 있게 한 후, 원래의 코드에서 다음과 같이 사용하도록 바뀝니다.

private static void Main(string[] args)
{
    Console.WriteLine(\u003CPrivateImplementationDetails\u003E.\u003CS\u003E531DF2844447DD5077DB03842CD75395.s);
}

그렇다면, 왜 굳이 이런 기능을 추가했을까요? 문서를 보면, 그동안 C# 컴파일러는 문자열 리터럴을 (위의 PE Viewer에서 "#US"로 지정된) UserString 힙에 보관하는데, 그 크기가 2의 24승(16MB)으로 제한돼 있다고 합니다. 의외로 꽤 작죠? 그래서 이 한계를 넘게 문자열 리터럴을 사용하면 컴파일 시점에 이런 오류가 발생한다고 합니다.

error CS8103: Combined length of user strings used by the program exceeds allowed limit. Try to decrease use of string literals.


아마도 저 제약에 걸린 프로그램을 만드는 개발자들이 은근 있었나 봅니다. ^^ (그랬다면, 그들은 그동안 순전히 문자열 리터럴을 나누기 위해 별도의 DLL을 만들어서 사용해야만 했을 것입니다.)

하지만 C# 14부터는, "experimental-data-section-string-literals" 기능을 통해 빌드하는 경우 #US 섹션이 아닌, C/C++처럼 문자열을 PE 파일의 readonly 섹션에 저장해 두기 때문에 문자열 리터럴의 크기에 대한 제약이 없어집니다. 좋은 소식이죠?!!! ^^

정리하면, CS8103 오류를 겪지 않는 한 굳이 설정할 필요가 없는 옵션입니다.




참고로 (네트워크 통신 등의 속도를 높이기 위해), UTF-16으로의 변환을 하고 싶지 않다면 u8 접미사를 이용한 UTF-8 인코딩을 사용하면 됩니다.

C# 11 - UTF-8 문자열 리터럴
; https://www.sysnet.pe.kr/2/0/13096

물론, 저 u8 문자열 리터럴도 "#US" 섹션이 아닌 PE 파일의 .text 섹션에 저장되므로 16MB의 제약은 없습니다.





[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]







[최초 등록일: ]
[최종 수정일: 8/14/2025]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 




1  2  3  4  5  6  [7]  8  9  10  11  12  13  14  15  ...
NoWriterDateCnt.TitleFile(s)
13864정성태1/15/20257961Linux: 114. eBPF를 위해 필요한 SELinux 보안 정책
13863정성태1/14/20255928Linux: 113. Linux - 프로세스를 위한 전용 SELinux 보안 문맥 지정
13862정성태1/13/20256933Linux: 112. Linux - 데몬을 위한 SELinux 보안 정책 설정
13861정성태1/11/20257342Windows: 276. 명령행에서 원격 서비스를 동기/비동기로 시작/중지
13860정성태1/10/20256484디버깅 기술: 216. WinDbg - 2가지 유형의 식 평가 방법(MASM, C++)
13859정성태1/9/20258010디버깅 기술: 215. Windbg - syscall 이후 실행되는 KiSystemCall64 함수 및 SSDT 디버깅
13858정성태1/8/20258359개발 환경 구성: 738. PowerShell - 원격 호출 시 "powershell.exe"가 아닌 "pwsh.exe" 환경으로 명령어를 실행하는 방법
13857정성태1/7/20258391C/C++: 187. Golang - 콘솔 응용 프로그램을 Linux 데몬 서비스를 지원하도록 변경파일 다운로드1
13856정성태1/6/20256304디버깅 기술: 214. Windbg - syscall 단계까지의 Win32 API 호출 (예: Sleep)
13855정성태12/28/20248851오류 유형: 941. Golang - os.StartProcess() 사용 시 오류 정리
13854정성태12/27/20248660C/C++: 186. Golang - 콘솔 응용 프로그램을 NT 서비스를 지원하도록 변경파일 다운로드1
13853정성태12/26/20246869디버깅 기술: 213. Windbg - swapgs 명령어와 (Ring 0 커널 모드의) FS, GS Segment 레지스터
13852정성태12/25/20249350디버깅 기술: 212. Windbg - (Ring 3 사용자 모드의) FS, GS Segment 레지스터파일 다운로드1
13851정성태12/23/20247216디버깅 기술: 211. Windbg - 커널 모드 디버깅 상태에서 사용자 프로그램을 디버깅하는 방법
13850정성태12/23/20249278오류 유형: 940. "Application Information" 서비스를 중지한 경우, "This file does not have an app associated with it for performing this action."
13849정성태12/20/20249222디버깅 기술: 210. Windbg - 논리(가상) 주소를 Segmentation을 거쳐 선형 주소로 변경
13848정성태12/18/20248280디버깅 기술: 209. Windbg로 알아보는 Prototype PTE파일 다운로드2
13847정성태12/18/20247857오류 유형: 939. golang - 빌드 시 "unknown directive: toolchain" 오류 빌드 시 이런 오류가 발생한다면?
13846정성태12/17/20249605디버깅 기술: 208. Windbg로 알아보는 Trans/Soft PTE와 2가지 Page Fault 유형파일 다운로드1
13845정성태12/16/20246830디버깅 기술: 207. Windbg로 알아보는 PTE (_MMPTE)
13844정성태12/14/202410128디버깅 기술: 206. Windbg로 알아보는 PFN (_MMPFN)파일 다운로드1
13843정성태12/13/20247408오류 유형: 938. Docker container 내에서 빌드 시 error MSB3021: Unable to copy file "..." to "...". Access to the path '...' is denied.
13842정성태12/12/20247776디버깅 기술: 205. Windbg - KPCR, KPRCB
13841정성태12/11/20248479오류 유형: 937. error MSB4044: The "ValidateValidArchitecture" task was not given a value for the required parameter "RemoteTarget"
13840정성태12/11/20247563오류 유형: 936. msbuild - Your project file doesn't list 'win' as a "RuntimeIdentifier"
13839정성태12/11/20249154오류 유형: 936. msbuild - error CS1617: Invalid option '12.0' for /langversion. Use '/langversion:?' to list supported values.
1  2  3  4  5  6  [7]  8  9  10  11  12  13  14  15  ...