성태의 닷넷 이야기
홈 주인
모아 놓은 자료
프로그래밍
질문/답변
사용자 관리
사용자
메뉴
아티클
외부 아티클
유용한 코드
온라인 기능
MathJax 입력기
최근 덧글
[정성태] 그냥 RSS Reader 기능과 약간의 UI 편의성 때문에 사용...
[이종효] 오래된 소프트웨어는 보안 위협이 되기도 합니다. 혹시 어떤 기능...
[정성태] @Keystroke IEEE의 문서를 소개해 주시다니... +_...
[손민수 (Keystroke)] 괜히 듀얼채널 구성할 때 한번에 같은 제품 사라고 하는 것이 아...
[정성태] 전각(Full-width)/반각(Half-width) 기능을 토...
[정성태] Vector에 대한 내용은 없습니다. Vector가 닷넷 BCL...
[orion] 글 읽고 찾아보니 디자인 타임에는 InitializeCompon...
[orion] 연휴 전에 재현 프로젝트 올리자 생각해 놓고 여의치 않아서 못 ...
[정성태] 아래의 글에 정리했으니 참고하세요. C# - Typed D...
[정성태] 간단한 재현 프로젝트라도 있을까요? 저런 식으로 설명만 해...
글쓰기
제목
이름
암호
전자우편
HTML
홈페이지
유형
제니퍼 .NET
닷넷
COM 개체 관련
스크립트
VC++
VS.NET IDE
Windows
Team Foundation Server
디버깅 기술
오류 유형
개발 환경 구성
웹
기타
Linux
Java
DDK
Math
Phone
Graphics
사물인터넷
부모글 보이기/감추기
내용
<div style='display: inline'> <h1 style='font-family: Malgun Gothic, Consolas; font-size: 20pt; color: #006699; text-align: center; font-weight: bold'>C# 11 - UTF-8 문자열 리터럴</h1> <p> (Visual Studio 2022 17.3 이후 버전에서 테스트할 수 있습니다.)<br /> <br /> 요즘 대세가 utf-8이다 보니 통신 시 utf-8 인코딩을 요구하는 것이 다반사입니다. 따라서 문자열이 소스 코드에 명시된 경우,<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > string text = "Hello"; </pre> <br /> <a target='tab' href='https://www.sysnet.pe.kr/2/0/1294#1'>C# 컴파일러는 사용자가 입력한 문자열 리터럴을 UTF-16으로 인코딩</a> 해놓기 때문에 저것을 utf-8로 전송하려면 별도의 인코딩 과정이 필요합니다.<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > string text = "cat"; byte [] buffer = Encoding.UTF8.GetBytes(text); </pre> <br /> 이런 문제를 C# 11부터는 (대소문자 관계없이)"u8" 접미사를 붙여 C# 컴파일러로 하여금 utf-8 인코딩으로 해석하라고 명시할 수 있습니다.<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-f: Consolas, Verdana;' > ReadOnlySpan<byte> span1 = "cat"<span style='color: blue; font-weight: bold'>u8</span>; // 또는, var span1 = "cat"<span style='color: blue; font-weight: bold'>U8</span>; // 바이트 배열로 받고 싶다면, ReadOnlySpan<byte>.ToArray 메서드를 이용 byte [] buffer = "cat"u8.ToArray(); </pre> <br /> 현재 utf-8 문자열 리터럴을 받는 데이터 타입은 ReadOnlySpan<byte> 하나로만 고정돼 있습니다. 또한, 해당 utf-8 문자열 리터럴의 메모리 표현은 null 바이트를 마지막에 포함하지만 그것을 받는 ReadOnlySpan 변수는 null 바이트를 제외한 바이트 배열만을 가리킵니다.<br /> <br /> 재미있는 것은, 소스 코드상으로만 보면 이것이 Compile-time에 완료되는 것처럼 보여도 실제로는 런타임에 실행되는 코드를 동반한다는 점입니다.<br /> <br /> 즉, "문자열" 자체에 대한 것만 C# 컴파일러가 utf-8 인코딩시켜 출력 파일에 보관시켜놓는 것일 뿐, 구현 자체는 다음과 같이 "new ReadOnlySpan(...)" 타입을 생성하는 런타임 실행 코드가 요구됩니다.<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > var span1 = "cat"u8; // 위의 코드는 C# 컴파일러에 의해 이렇게 변경되는 것과 같음. // 따라서 기존에 C# 컴파일러가 byte[]에 대해 수행하는 모든 최적화 혜택을 그대로 u8 문자열에도 적용됨. ReadOnlySpan<byte> span = new ReadOnlySpan<byte>(new byte[] { 0x63, 0x61, 0x74 }); // 문자열 연결에 대한 최적화는 되어 있으므로 아래의 코드는, ReadOnlySpan<byte> span = "h"u8 + "el"u8 + "lo"u8; // 이렇게 처리되는 것과 동일함. ReadOnlySpan<byte> span = new ReadOnlySpan<byte>(new byte[] { 0x68, 0x65, 0x6c, 0x6c, 0x6f, 0x00 }); </pre> <br /> 달리 말하면, utf-8 문자열 리터럴은 "상수(constant)"에 해당하지 않는다는 점입니다. 따라서 상수식이 요구되는 기본값을 가진 매개 변수나,<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > // 컴파일 오류: error CS1736: Default parameter value for 'text' must be a compile-time constant void PrintUtf8(ReadOnlySpan<byte> text = <span style='color: blue; font-weight: bold'>"(null)"u8</span>) { Console.WriteLine(BitConverter.ToString(text.ToArray())); } </pre> <br /> switch의 case 등에는 올 수 없습니다.<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > switch (span1) { // 컴파일 오류: error CS0150: A constant value is expected case "cat"u8: Console.WriteLine(BitConverter.ToString(text.ToArray())); break; } </pre> <br /> 그리고 utf8 문자열 리터럴을 ReadOnlySpan으로 처리하게 된 것에는 장/단점이 존재합니다. ReadOnlySpan이 <a target='tab' href='https://www.sysnet.pe.kr/2/0/11530'>ref struct</a>이므로 GC Heap 할당을 하지 않는다는 장점이 있는 반면, 그렇기 때문에 기존의 ref struct가 갖는 - <a target='tab' href='https://www.sysnet.pe.kr/2/0/11534#limit'>예를 들어 비동기 메서드 내에서 사용할 수 없다는 등의 제약</a>이 있습니다.<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > <span style='color: blue; font-weight: bold'>async</span> Task M() { // 컴파일 오류: error CS4012: Parameters or locals of type 'ReadOnlySpan<byte>' cannot be declared in async methods or async lambda expressions. ReadOnlySpan<byte> text = "cat"u8; // 대신 ToArray()를 경유해 ReadOnlyMemory로 처리 ReadOnlyMemory<byte> text = "cat"u8.ToArray(); } </pre> <br /> <hr style='width: 50%' /><br /> <br /> <strike> 일단, 현재 구현된 기준으로는 위의 설명이 맞습니다. 하지만 다음의 글을 보면,<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > C# 11 Preview Updates – Raw string literals, UTF-8 and more! - UTF-8 String Literals ; <a target='tab' href='https://devblogs.microsoft.com/dotnet/csharp-11-preview-updates/#utf-8-string-literals'>https://devblogs.microsoft.com/dotnet/csharp-11-preview-updates/#utf-8-string-literals</a> </pre> <br /> "u8" 접미사가 필요한 지에 대한 의견이 계속 조율 중이라고 합니다. 그래서, 다음과 같이 아예 기존 문자열을 byte 배열로 직접 처리하게 될지도 모릅니다.<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > // 현재(Visual Studio 2022 17.3 Preview 2)는 컴파일 오류가 발생하지만! byte[] array = "hello"; // new byte[] { 0x68, 0x65, 0x6c, 0x6c, 0x6f } Span<byte> span = "dog"; // new byte[] { 0x64, 0x6f, 0x67 } ReadOnlySpan<byte> span = "cat"; // new byte[] { 0x63, 0x61, 0x74 } </pre> <br /> 어쨌든, 자세한 것은 정식 버전이 나와봐야 할 것 같습니다.<br /> <br /> 이 외에도, 희소식이 하나 있다면 아예 새로운 타입으로 Utf8String을 표준화 중이라고 하니 좀 더 기다리면 좋은 결과가 있을 듯합니다. (아마도 이건 C# 12 이후의 일이 될 것 같군요. ^^)<br /> </strike> <br /> <hr style='width: 50%' /><br /> <br /> 마지막으로, "<a target='tab' href='https://github.com/dotnet/csharplang/blob/main/proposals/utf8-string-literals.md#relying-on-core-apis'>Relying on core APIs</a>" 문서에 보면 C# 컴파일러 개발자 입장에서의 코드 구현에 대한 어려움이 나오는데, 이게 좀 재미있습니다. ^^<br /> <br /> Roslyn C# 컴파일러는 "C# 언어"로 개발되었지만 가능한 BCL에서 제공하는 코드는 사용하지 않는다고 합니다. 왜냐하면, 런타임의 종류 또는 패치마다 달라질 수 있는 BCL 코드에 영향을 받을 수 있기 때문입니다. 이러한 사례로, 과거에 Roslyn은 부동 소수점 리터럴을 해석하기 위해 BCL의 double.Parse 메서드를 이용했는데, 이것이 나중에 <a target='tab' href='https://devblogs.microsoft.com/dotnet/floating-point-parsing-and-formatting-improvements-in-net-core-3-0/'>.NET Core에서 double.Parse에 있던 문제점을 개선</a>하는 바람에 동일한 컴파일러인데도 그것이 수행되는 런타임 환경에 따라 바이너리 결과가 달라지는 문제가 있었다고 합니다. (그래서, 현재는 double.Parse 사용 코드를 제거하고 직접 구현하는 식으로 바꿨다고.)<br /> <br /> 그런데, 이번의 utf-8 문자열 리터럴에 대한 처리도 BCL의 코드를 사용하는 경우라고 합니다. 즉, C# 소스 코드에 명시된 "cat"u8의 문자열을 .NET BCL에 포함된 <a target='tab' href='https://learn.microsoft.com/en-us/dotnet/api/system.text.utf8encoding'>UTF8Encoding</a> 타입을 사용해 해석하는 건데요, 현재 관련 코드는 매우 안정적이라 런타임마다 달라지는 문제가 없을 것으로 예상되지만 향후 재고할 여지는 있다고 합니다.<br /> <br /> 음... 위의 이야기는 알쓸신잡의 대표적인 사례일 수 있겠군요. ^^<br /> <br /> <hr style='width: 50%' /><br /> <br /> 참고로, utf8 문자열 리터럴은 메모리에 8바이트 정렬로 저장됩니다. 가령 다음과 같이 지정하면,<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > var span = "12345678"u8; unsafe { fixed (void* ptr = &span2[0]) { // ptr 주소가 가리키는 메모리 내용을 확인 } } // 메모리 표현 // 31 32 33 34 35 36 37 38 00 00 00 00 00 00 00 00 </pre> <br /> null 표시를 포함해야 하기 때문에 8바이트를 넘으므로 다시 16바이트를 점유하게 됩니다. 반면 다음과 같이 7바이트가 되면,<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > var span = "1234567"u8; // 메모리 표현 // 31 32 33 34 35 36 37 00 </pre> <br /> 이제는 null을 위한 1바이트 공간이 있으므로 정확히 8바이트만 점유합니다. 물론, 8바이트보다 적으면 0으로 패딩이 됩니다.<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > var span = "1"u8; // 메모리 표현 // 31 00 00 00 00 00 00 00 </pre> <br /> <hr style='width: 50%' /><br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > C# 11 - 인터페이스 내에 정적 추상 메서드 정의 가능(공식 문서, <a target='tab' href='https://github.com/dotnet/csharplang/issues/4436'>Static Abstract Members In Interfaces C# 10 Preview</a>) ; <a target='tab' href='https://www.sysnet.pe.kr/2/0/12814'>https://www.sysnet.pe.kr/2/0/12814</a> C# 11 - 제네릭 타입의 특성 적용 (<a target='tab' href='https://learn.microsoft.com/en-us/dotnet/csharp/whats-new/csharp-11#generic-attributes'>공식 문서</a>, <a target='tab' href='https://github.com/dotnet/csharplang/issues/124'>Generic attributes</a>) ; <a target='tab' href='https://www.sysnet.pe.kr/2/0/12839'>https://www.sysnet.pe.kr/2/0/12839</a> C# 11 - 사용자 정의 checked 연산자 (공식 문서, <a target='tab' href='https://github.com/dotnet/csharplang/blob/main/proposals/checked-user-defined-operators.md'>Checked user-defined operators</a>) ; <a target='tab' href='https://www.sysnet.pe.kr/2/0/13099'>https://www.sysnet.pe.kr/2/0/13099</a> C# 11 - shift 연산자 재정의에 대한 제약 완화 (공식 문서, <a target='tab' href='https://github.com/dotnet/csharplang/issues/4666'>Relaxing Shift Operator</a>) ; <a target='tab' href='https://www.sysnet.pe.kr/2/0/13100'>https://www.sysnet.pe.kr/2/0/13100</a> C# 11 - IntPtr/UIntPtr과 nint/unint의 통합 (<a target='tab' href='https://learn.microsoft.com/en-us/dotnet/csharp/whats-new/csharp-11#numeric-intptr-and-uintptr'>공식 문서</a>, <a target='tab' href='https://github.com/dotnet/csharplang/blob/main/proposals/numeric-intptr.md'>Numeric IntPtr</a>) ; <a target='tab' href='https://www.sysnet.pe.kr/2/0/13111'>https://www.sysnet.pe.kr/2/0/13111</a> C# 11 - 새로운 연산자 ">>>" (Unsigned Right Shift) (공식 문서, <a target='tab' href='https://github.com/dotnet/csharplang/issues/4682'>Unsigned right shift operator</a>) ; <a target='tab' href='https://www.sysnet.pe.kr/2/0/13110'>https://www.sysnet.pe.kr/2/0/13110</a> C# 11 - 원시 문자열 리터럴 (<a target='tab' href='https://learn.microsoft.com/en-us/dotnet/csharp/whats-new/csharp-11#raw-string-literals'>공식 문서</a>, <a target='tab' href='https://github.com/dotnet/csharplang/blob/main/proposals/raw-string-literal.md'>raw string literals</a>) ; <a target='tab' href='https://www.sysnet.pe.kr/2/0/13085'>https://www.sysnet.pe.kr/2/0/13085</a> C# 11 - 문자열 보간 개선 2가지 (<a target='tab' href='https://learn.microsoft.com/en-us/dotnet/csharp/whats-new/csharp-11#newlines-in-string-interpolations'>공식 문서</a>, <a target='tab' href='https://github.com/dotnet/csharplang/issues/4935'>Allow new-lines in all interpolations</a>) ; <a target='tab' href='https://www.sysnet.pe.kr/2/0/13086'>https://www.sysnet.pe.kr/2/0/13086</a> C# 11 - 목록 패턴 (공식 문서, <a target='tab' href='https://github.com/dotnet/csharplang/blob/main/proposals/list-patterns.md'>List patterns</a>) ; <a target='tab' href='https://www.sysnet.pe.kr/2/0/13112'>https://www.sysnet.pe.kr/2/0/13112</a> C# 11 - Span 타입에 대한 패턴 매칭 (<a target='tab' href='https://learn.microsoft.com/en-us/dotnet/csharp/whats-new/csharp-11#pattern-match-spanchar-or-readonlyspanchar-on-a-constant-string'>공식 문서</a>, <a target='tab' href='https://github.com/dotnet/csharplang/issues/1881'>Pattern matching on ReadOnlySpan<char></a>) ; <a target='tab' href='https://www.sysnet.pe.kr/2/0/13113'>https://www.sysnet.pe.kr/2/0/13113</a> C# 11 - Utf8 문자열 리터럴 지원(공식 문서, <a target='tab' href='https://github.com/dotnet/csharplang/blob/main/proposals/utf8-string-literals.md'>Utf8 Strings Literals</a>) ; https://www.sysnet.pe.kr/2/0/13096 C# 11 - ref struct에 ref 필드를 허용 (공식 문서, <a target='tab' href='https://github.com/dotnet/csharplang/blob/main/proposals/low-level-struct-improvements.md'>ref fields</a>) ; <a target='tab' href='https://www.sysnet.pe.kr/2/0/13015'>https://www.sysnet.pe.kr/2/0/13015</a> C# 11 - 파일 범위 내에서 유효한 타입 정의 (공식 문서, <a target='tab' href='https://github.com/dotnet/csharplang/issues/6011'>File-local types</a>) ; <a target='tab' href='https://www.sysnet.pe.kr/2/0/13117'>https://www.sysnet.pe.kr/2/0/13117</a> C# 11 - 메서드 매개 변수에 대한 nameof 지원 (<a target='tab' href='https://learn.microsoft.com/en-us/dotnet/csharp/whats-new/csharp-11#extended-nameof-scope'>공식 문서</a>, <a target='tab' href='https://github.com/dotnet/csharplang/issues/373'>nameof(parameter)</a>) ; <a target='tab' href='https://www.sysnet.pe.kr/2/0/13122'>https://www.sysnet.pe.kr/2/0/13122</a> C# 11 - 멤버(속성/필드)에 지정할 수 있는 required 예약어 추가 (공식 문서, <a target='tab' href='https://github.com/dotnet/csharplang/blob/main/proposals/required-members.md'>Required members</a>) ; <a target='tab' href='https://www.sysnet.pe.kr/2/0/13123'>https://www.sysnet.pe.kr/2/0/13123</a> C# 11 - 구조체 필드의 자동 초기화 (공식 문서, <a target='tab' href='https://github.com/dotnet/csharplang/blob/main/proposals/auto-default-structs.md'>auto-default structs</a>) ; <a target='tab' href='https://www.sysnet.pe.kr/2/0/13125'>https://www.sysnet.pe.kr/2/0/13125</a> C# 11 - 정적 메서드에 대한 delegate 처리 시 cache 적용 (공식 문서, <a target='tab' href='https://github.com/dotnet/roslyn/issues/5835'>Cache delegates for static method group</a>) ; <a target='tab' href='https://www.sysnet.pe.kr/2/0/13126'>https://www.sysnet.pe.kr/2/0/13126</a> Language Feature Status ; <a target='tab' href='https://github.com/dotnet/roslyn/blob/main/docs/Language%20Feature%20Status.md'>https://github.com/dotnet/roslyn/blob/main/docs/Language%20Feature%20Status.md</a> </pre> </p><br /> <br /><hr /><span style='color: Maroon'>[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]</span> </div>
첨부파일
스팸 방지용 인증 번호
1509
(왼쪽의 숫자를 입력해야 합니다.)