Microsoft MVP성태의 닷넷 이야기
.NET Framework: 481. Mono 내부의 문자열 처리 방식은 UTF-8 [링크 복사], [링크+제목 복사],
조회: 20962
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
 

Mono 내부의 문자열 처리 방식은 UTF-8

지난번에 소개해 드린 모노 프로파일러로,

Visual Studio에서 Mono 용 Profiler 개발
; https://www.sysnet.pe.kr/2/0/1805

JIT 컴파일 시의 메서드 이름을 알아내는 코드를 다음과 같이 작성할 수 있습니다.

void mono_profiler_jit_compile_enter(MonoProfiler *prof, MonoMethod *method)
{
    const gchar *methodName = mono_method_get_name(method);
}

보시는 바와 같이 반환 값이 gchar *타입이고, gchar 타입은 GLib 헤더 파일에 char 타입으로 정의되어 있으므로 결국 wchar_t 처리에 대한 고려는 전혀 안되어 있습니다.

그렇다면, 한글 처리가 어떻게 될지 궁금해 지는데요. 이런 예제를 만들고,

using System;

class MainClass
{
    public static void Main (string[] args)
    {
        테스트 ();
    }

    public static void 테스트()
    {
        // ...
    }
}

프로파일러 코드에서 methodName을 구해 보면, Visual Studio의 Watch 창에는 "methodName 0x005604f8 <Invalid characters in string.> const char *"이라고 표시됩니다. 혹시나 싶어서 wchar_t * 타입으로 강제 형변환해도 깨진 글자로만 출력됩니다. Watch 창에 출력된 주소 "0x005604f8"의 메모리 값을 조사해 보면,

hangul_in_mono_1

보시는 바와 같이 "ed 85 8c ec 8a a4 ed 8a b8 00"으로 나옵니다. 대충 한글 한 글자당 3바이트가 할당되고 NULL 처리는 단일 '\0' 문자로만 되어 있는 걸로 봐서 UTF16 이상의 인코딩은 아닌 것 같고 UTF-8로 된 듯 한데, 다음과 같이 확인해 볼 수 있습니다.

using System;
using System.Text;

class Program
{
    static void Main(string[] args)
    {
        string txt = "테스트";
        Console.WriteLine(BitConverter.ToString(Encoding.UTF8.GetBytes(txt))); // 출력: ED-85-8C-EC-8A-A4-ED-8A-B8
    }
}

아하~~~ 맞군요. ^^

그렇다면 혹시 mono 런타임에 ANSI가 아닌 WIDE 타입의 문자열로 반환하는 메서드가 있지 않을까요? 미리 답변을 내리자면, 없습니다.

모노 소스코드의 "\mono\mono\metadata\class-internals.h" 헤더 파일에 보면 MonoMethod는 다음과 같이 정의되어 있습니다.
struct _MonoMethod {
    guint16 flags;  /* method flags */
    guint16 iflags; /* method implementation flags */
    guint32 token;
    MonoClass *klass;
    MonoMethodSignature *signature;
    const char *name;
    //...[생략]...
}

그리고 "\mono\mono\metadata\loader.c"에 정의된 mono_method_get_name은 그저 MonoMethod 클래스의 name 필드를 반환하는 역할만 합니다.

const char*
mono_method_get_name (MonoMethod *method)
{
    return method->name;
}

대신 GLib를 이용하면 다음과 같이 편하게 대응함수를 만들 수 있습니다.

wchar_t* mono_method_get_nameW(MonoMethod *method)
{
    const gchar *methodName = mono_method_get_name(method);

    wchar_t *pName = (wchar_t *)g_utf8_to_utf16(methodName, strlen(methodName), NULL, NULL, NULL);
    return pName; // mono_method_get_nameW에서는 반드시 g_free를 해야 함.
}

참고로, g_utf8_to_utf16 메서드는 내부적으로 g_malloc으로 메모리를 할당해서 UTF-16 인코딩의 문자열을 담은 버퍼를 반환하기 때문에 사용 후 반드시 g_free 메서드로 해제해야 합니다.

그런데... Mono의 전반적인 문자열 처리가 이렇게 1바이트 연산 기반의 utf-8로 되어 있기 때문에 가능한 그대로 따르는 것이 좋습니다. (예를 들어, strlen과 같은 문자열 연산 함수에서 별탈없이 성공하기 때문에.) 단지, 마지막에 출력할 때나 UTF16으로 변환하는 식의 처리만 하는 것이 코드 작성이 간결해 질 수 있습니다.

(그나저나, 요새 잠깐 시간날 때마다 Mono를 살펴보고 있는데... 과히 만족스럽진 않군요. ^^ 아무리 무료로 공개되어 자금 지원의 규모면에서 차이가 있다고는 하지만.)




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]







[최초 등록일: ]
[최종 수정일: 7/10/2021]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 




... 121  122  123  124  [125]  126  127  128  129  130  131  132  133  134  135  ...
NoWriterDateCnt.TitleFile(s)
10797정성태5/23/201521578VC++: 91. 자식 스레드에 자동 상속되는 TEB의 SubProcessTag 필드파일 다운로드1
10796정성태5/23/201532402오류 유형: 293. SQL Server Management Studio 실행 시 "Cannot find one or more components" 오류
10795정성태5/23/201530526오류 유형: 292. InstallUtil로 .NET 서비스 등록 시 오류 - Operation is not supported. (Exception from HRESULT: 0x80131515). [3]
10794정성태5/22/201525490개발 환경 구성: 267. (무료) 마이크로소프트 온라인 강좌 소개 - 네트워킹 기초 [1]
2925정성태5/14/201525111디버깅 기술: 73. PDB 기호 파일의 경로 구성 방식파일 다운로드1
2924정성태5/14/201528410VS.NET IDE: 100. 비주얼 스튜디오 원격 디버깅 시 'Unknown function' 콜스택이 나온다면?
2923정성태5/12/201587757기타: 52. 도서: 시작하세요! C# 6.0 프로그래밍: 기본 문법부터 실전 예제까지 [17]
2922정성태5/12/201524610오류 유형: 291. ssindex.cmd 실행 시 '...[tfs_collection_url]...' not found in srcsrv.ini 오류 발생
2921정성태5/9/201530958개발 환경 구성: 266. 인텔에서 구현한 최대 절전 모드 기능 - Intel® Rapid Start Technology
2920정성태5/9/201522087오류 유형: 290. 디스크 관리자의 파티션 축소 시, There is not enough space available on the disk(s) to complete this operation.
2919정성태5/9/201521940오류 유형: 289. Error: this template attempted to load component assembly 'NuGet.VisualStudio.Interop, ...'
2918정성태5/9/201540489Windows: 111. 복구(Recovery) 파티션 삭제하는 방법 [3]
2917정성태5/9/201530931오류 유형: 288. .NET Framework 4.6이 설치된 경우 "Intel® Rapid Storage Technology (Intel® RST) RAID Driver"가 설치 안 되는 문제 [5]
2916정성태5/9/201531996오류 유형: 287. 레지스트리 권한 오류 - Cannot edit [Registry key name]: Error writing the value's new contents.
2915정성태5/9/201531124개발 환경 구성: 265. TrustedInstaller 권한으로 프로그램 실행시키는 방법 [11]
2914정성태5/9/201528486DDK: 7. 정식 인증서가 있는 경우 Device Driver 서명하는 방법 [2]
2913정성태4/30/201526232.NET Framework: 511. Build 2015 행사에서 소개된 (맥/리눅스/윈도우 용 무료) Visual Studio Code 개발 도구 [8]
2912정성태4/29/201521965오류 유형: 286. VirtualBox에 Windows 8/2012 설치 시 "Error Code: 0x000000C4" 오류 발생
2911정성태4/29/201520542오류 유형: 285. Visual Studio 2015를 제거한 경우 Microsoft.VisualStudio.Web.PageInspector.Loader 어셈블리를 못 찾는 문제 [2]
2910정성태4/29/201524450오류 유형: 284. System.TypeLoadException: Could not load type 'System.Reflection.AssemblySignatureKeyAttribute' from assembly [1]
2909정성태4/29/201520589오류 유형: 283. WCF 연결 오류 - Expected record type 'PreambleAck'
2908정성태4/29/201528891오류 유형: 282. 원격에서 SQL 서버는 연결되지만, SQL Express는 연결되지 않는 경우
2907정성태4/29/201518943.NET Framework: 510. 제네릭(Generic) 인자에 대한 메타데이터 등록 확인
2906정성태4/28/201521540오류 유형: 281. DebugView로 인한 System.Diagnostics.Trace.WriteLine 멈춤(Hang) 현상
2905정성태4/27/201521925오류 유형: 280. HttpResponse.Headers.Add에서 "System.PlatformNotSupportedException: This operation requires IIS integrated pipeline mode." 예외 발생
2904정성태4/27/201527166DDK: 6. ZwTerminateProcess로 프로세스를 종료하는 Device Driver 프로그램 [2]파일 다운로드1
... 121  122  123  124  [125]  126  127  128  129  130  131  132  133  134  135  ...