Microsoft MVP성태의 닷넷 이야기
닷넷: 2308. C# - ICU 라이브러리를 활용한 문자열의 대소문자 변환 [링크 복사], [링크+제목 복사],
조회: 6358
글쓴 사람
정성태 (seongtaejeong at gmail.com)
홈페이지
첨부 파일

(시리즈 글이 5개 있습니다.)
오류 유형: 848. .NET Core/5+ - Process terminated. Couldn't find a valid ICU package installed on the system
; https://www.sysnet.pe.kr/2/0/13266

닷넷: 2153. C# - 사용자가 빌드한 ICU dll 파일을 사용하는 방법
; https://www.sysnet.pe.kr/2/0/13430

C/C++: 184. C++ - ICU dll을 이용하는 예제 코드 (Windows)
; https://www.sysnet.pe.kr/2/0/13796

C/C++: 185. C++ - 문자열의 대소문자를 변환하는 transform + std::tolower/toupper 방식의 문제점
; https://www.sysnet.pe.kr/2/0/13797

닷넷: 2308. C# - ICU 라이브러리를 활용한 문자열의 대소문자 변환
; https://www.sysnet.pe.kr/2/0/13800




C# - ICU 라이브러리를 활용한 문자열의 대소문자 변환

지난 글의,

C++ - 문자열의 대소문자를 변환하는 transform + std::tolower/toupper 방식의 문제점
; https://www.sysnet.pe.kr/2/0/13797

C# 버전을 작성해 보겠습니다. ^^

우선, C#의 경우 .NET 5부터 ICU(International Components for Unicode) 라이브러리를 지원하는데요, 따라서 .NET Core 3.1 이하 버전에서는 (아마도 LCMapStringEx를 사용할 것이므로) 대/소문자 변환이 매끄럽지 않을 것이라고 예상할 수 있습니다.

실제로 테스트를 해볼까요? ^^

// .NET Core 3.1 이하 + Windows 11
using System;

internal class Program
{
    static void Main(string[] args)
    {
        string text = "𐲀, ß, à, fl";
        Console.WriteLine(text);
        Console.WriteLine(text.ToLower());
        Console.WriteLine(text.ToUpper());
    }
}

/* 출력 결과
𐲀, ß, à, fl
𐲀, ß, à, fl
𐲀, ß, À, fl
*/

보는 바와 같이 '𐲀' 문자의 소문자 변환이 안 되었고, ß, fl 문자의 대문자 변환이 안 되었습니다.
동일한 예제를 .NET 5+ 버전에서 해보면 어떨까요?

// .NET Core 5 이상 + Windows 11
internal class Program
{
    static void Main(string[] args)
    {
        string text = "𐲀, ß, à, fl";
        Console.WriteLine(text);
        Console.WriteLine(text.ToLower());
        Console.WriteLine(text.ToUpper());
    }
}

/* 출력 결과
𐲀, ß, à, fl
𐳀, ß, à, fl
𐲀, ß, À, fl
*/

그나마 이번엔 𐲀 문자의 소문자 처리는 되었지만, 여전히 ß, fl 문자의 대문자 변환이 안 되었습니다.



혹시, Windows 11에 기본 포함된 ICU Combined Library의 버전 차이 때문일까요? 기본적으로 (2024-11-03 기준) Windows 11에 포함된 icu.dll은 68.2.0.10 버전입니다. 반면 지난 글에서 테스트한 버전은 74였는데요, 혹시나 싶어 그 DLL들을 포함하고,

<Project Sdk="Microsoft.NET.Sdk">

    <PropertyGroup>
        <OutputType>Exe</OutputType>
        <TargetFramework>net8.0</TargetFramework>
        <ImplicitUsings>enable</ImplicitUsings>
        <Nullable>enable</Nullable>
    </PropertyGroup>

    <ItemGroup>
        <None Include="..\lib\icudt74.dll" Link="icudt74.dll">
            <CopyToOutputDirectory>PreserveNewest</CopyToOutputDirectory>
        </None>
        <None Include="..\lib\icuin74.dll" Link="icuin74.dll">
            <CopyToOutputDirectory>PreserveNewest</CopyToOutputDirectory>
        </None>
        <None Include="..\lib\icuio74.dll" Link="icuio74.dll">
            <CopyToOutputDirectory>PreserveNewest</CopyToOutputDirectory>
        </None>
        <None Include="..\lib\icutu74.dll" Link="icutu74.dll">
            <CopyToOutputDirectory>PreserveNewest</CopyToOutputDirectory>
        </None>
        <None Include="..\lib\icuuc74.dll" Link="icuuc74.dll">
            <CopyToOutputDirectory>PreserveNewest</CopyToOutputDirectory>
        </None>
    </ItemGroup>

    <ItemGroup>
        <RuntimeHostConfigurationOption Include="System.Globalization.AppLocalIcu" Value="74" />
    </ItemGroup>
</Project>

빌드해 봤지만 결과는 변하지 않았습니다. 그렇다면, 아직 닷넷은 ICU 라이브러리를 100% 활용하고 있지는 않는 것 같습니다.

그런데, 문자열 비교를 해보면 더 재미있는 결과가 나옵니다. ^^;

Console.WriteLine(StringComparer.Create(CultureInfo.InvariantCulture, true).Compare("𐲀", "𐳀"));
Console.WriteLine(StringComparer.Create(CultureInfo.InvariantCulture, true).Compare("a", "A"));
Console.WriteLine(StringComparer.Create(CultureInfo.InvariantCulture, true).Compare("fl", "FL"));
Console.WriteLine(StringComparer.Create(CultureInfo.InvariantCulture, true).Compare("ß", "ẞ"));

/* 출력 결과
-1
0
0
0
*/

𐲀 문자의 경우 정작 소문자 변환은 성공했지만 ignoreCase 비교에서는 실패한 반면, fl, ß 2개의 문자는 오히려 대문자 변환은 실패했지만 ignoreCase 비교에서는 성공했습니다. ^^;



참고로, 윈도우에 기본 포함된 icu.dll이 제공하는 함수를 직접 이용하는 것도 가능합니다.

C:\temp> dumpbin /EXPORTS c:\windows\system32\icu.dll | findstr u_strToLower
        114   71 00008940 u_strToLower

따라서, 이렇게 interop을 하면,

using System.Globalization;
using System.Runtime.InteropServices;

internal unsafe class Program
{
    [DllImport("icu.dll")]
    public static extern int u_strToLower(char* dest, int destCapacity, char* src, int srcLength, char* locale, int* pErrorCode);

    [DllImport("icu.dll")]
    public static extern int u_strToUpper(char* dest, int destCapacity, char* src, int srcLength, char* locale, int* pErrorCode);

    static void Main(string[] args)
    {
        string text = "𐲀, ß, à, fl";

        // U_ILLEGAL_ARGUMENT_ERROR = 1,     /**< Start of codes indicating failure */
        // U_BUFFER_OVERFLOW_ERROR   = 15,     /**< A result would not fit in the supplied buffer */
        // U_STRING_NOT_TERMINATED_WARNING = -124,/**< An output string could not be NUL-terminated because output length==destCapacity. */

        {
            // ICU4C
            int errorCode = 0;

            fixed (char* src = text)
            {
                int needBuffer = u_strToLower(null, 0, src, -1, null, &errorCode);
                errorCode = 0;
                char* dest = stackalloc char[needBuffer + 1];
                u_strToLower(dest, needBuffer + 1, src, -1, null, &errorCode);
                Console.WriteLine(new string(dest));
            }
        }


        {
            // ICU4C
            int errorCode = 0;

            fixed (char* src = text)
            {
                int needBuffer = u_strToUpper(null, 0, src, -1, null, &errorCode);
                errorCode = 0;
                char* dest = stackalloc char[needBuffer + 1];
                u_strToUpper(dest, needBuffer + 1, src, -1, null, &errorCode);
                Console.WriteLine(new string(dest));
            }
        }
    }
}

/* 출력 결과
𐳀, ß, à, fl
𐲀, SS, À, FL
*/

"C++ - ICU dll을 이용하는 예제 코드 (Windows)" 글에서 작성한 결과 그대로 나왔습니다.

만약, 윈도우가 기본 제공하는 icu.dll이 아닌 직접 빌드한 것을 사용하고 싶다면 u_strToLower의 경우 icuuc??dll에 있을 테니,

C:\temp> dumpbin /EXPORTS icuuc74.dll | findstr u_strToLower
       2358  935 000E0E20 u_strToLower_74

버전 번호를 EntryPoint로 명시해 사용하면 됩니다.

[DllImport("icuuc74.dll", EntryPoint = "u_strToLower_74")]
public static extern int u_strToLower(char* dest, int destCapacity, char* src, int srcLength, char* locale, int* pErrorCode);

[DllImport("icuuc74.dll", EntryPoint = "u_strToUpper_74")]
public static extern int u_strToUpper(char* dest, int destCapacity, char* src, int srcLength, char* locale, int* pErrorCode);

(첨부 파일은 이 글의 예제 코드를 포함합니다.)




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]







[최초 등록일: ]
[최종 수정일: 11/3/2024]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 



2024-11-21 09시06분
대소문자 '변환'과 함께 따라오는 문제가 바로 대소문자 구분 없이 '검색'하는 것도 있군요. ^^

On locale-aware substring matching, either case-sensitive or case-insensitive
; https://devblogs.microsoft.com/oldnewthing/20241101-00/?p=110447

윈도우에서는 이를 위해 Find­NLS­String­Ex 함수를 제공하고 있지만, "Windows globalization" 팀조차도 이제는 ICU를 추천한다고 합니다.
정성태
2024-11-21 09시14분
What has case distinction but is neither uppercase nor lowercase?
; https://devblogs.microsoft.com/oldnewthing/20241031-00/?p=110443

유니코드에는, 대문자(Upper-case)도 아닌, 그렇다고 소문자(Lower-case)도 아닌 case가 있는데요, 바로 그 중간에 자리잡고 있는 "Title case"가 있다고! ^^;

----------------------------------

The default C locale is not a very interesting one
; https://devblogs.microsoft.com/oldnewthing/20250206-00/?p=110846

Using alternate locales to get more interesting case mapping than the C
; https://devblogs.microsoft.com/oldnewthing/20250207-00/?p=110848
정성태

... 46  47  48  49  50  51  [52]  53  54  55  56  57  58  59  60  ...
NoWriterDateCnt.TitleFile(s)
12637정성태5/10/202117753사물인터넷: 62. NodeMCU v1 ESP8266 보드의 A0 핀에 다중 아날로그 센서 연결 [1]
12636정성태5/10/202117964사물인터넷: 61. NodeMCU v1 ESP8266 보드의 A0 핀 사용법 - FSR-402 아날로그 압력 센서 연동파일 다운로드1
12635정성태5/9/202116311기타: 81. OpenTabletDriver를 (관리자 권한으로 실행하지 않고도) 관리자 권한의 프로그램에서 동작하게 만드는 방법
12634정성태5/9/202114793개발 환경 구성: 572. .NET에서의 필수 무결성 제어 - 외부 Manifest 파일을 두는 방법파일 다운로드1
12633정성태5/7/202117723개발 환경 구성: 571. UAC - 관리자 권한 없이 UIPI 제약을 없애는 방법
12632정성태5/7/202118933기타: 80. (WACOM도 지원하는) Tablet 공통 디바이스 드라이버 - OpenTabletDriver
12631정성태5/5/202117765사물인터넷: 60. ThingSpeak 사물인터넷 플랫폼에 ESP8266 NodeMCU v1 + 조도 센서 장비 연동파일 다운로드1
12630정성태5/5/202118531사물인터넷: 59. NodeMCU v1 ESP8266 보드의 A0 핀 사용법 - CdS Cell(GL3526) 조도 센서 연동파일 다운로드1
12629정성태5/5/202120270.NET Framework: 1057. C# - CoAP 서버 및 클라이언트 제작 (UDP 소켓 통신) [1]파일 다운로드1
12628정성태5/4/202118189Linux: 39. Eclipse 원격 디버깅 - Cannot run program "gdb": Launching failed
12627정성태5/4/202118288Linux: 38. 라즈베리 파이 제로 용 프로그램 개발을 위한 Eclipse C/C++ 윈도우 환경 설정
12626정성태5/3/202118387.NET Framework: 1056. C# - Thread.Suspend 호출 시 응용 프로그램 hang 현상 (2)파일 다운로드1
12625정성태5/3/202116875오류 유형: 714. error CS5001: Program does not contain a static 'Main' method suitable for an entry point
12624정성태5/2/202121338.NET Framework: 1055. C# - struct/class가 스택/힙에 할당되는 사례 정리 [10]파일 다운로드1
12623정성태5/2/202117670.NET Framework: 1054. C# 9 최상위 문에 STAThread 사용 [1]파일 다운로드1
12622정성태5/2/202113509오류 유형: 713. XSD 파일을 포함한 프로젝트 - The type or namespace name 'TypedTableBase<>' does not exist in the namespace 'System.Data'
12621정성태5/1/202118407.NET Framework: 1053. C# - 특정 레지스트리 변경 시 알림을 받는 방법 [1]파일 다운로드1
12620정성태4/29/202121526.NET Framework: 1052. C# - 왜 구조체는 16 바이트의 크기가 적합한가? [1]파일 다운로드1
12619정성태4/28/202121538.NET Framework: 1051. C# - 구조체의 크기가 16바이트가 넘어가면 힙에 할당된다? [2]파일 다운로드1
12618정성태4/27/202119797사물인터넷: 58. NodeMCU v1 ESP8266 CP2102 Module을 이용한 WiFi UDP 통신 [1]파일 다운로드1
12617정성태4/26/202117074.NET Framework: 1050. C# - ETW EventListener의 Keywords별 EventId에 따른 필터링 방법파일 다운로드1
12616정성태4/26/202116755.NET Framework: 1049. C# - ETW EventListener를 상속받았을 때 초기화 순서파일 다운로드1
12615정성태4/26/202114009오류 유형: 712. Microsoft Live 로그인 - 계정을 선택하는(Pick an account) 화면에서 진행이 안 되는 문제
12614정성태4/24/202118325개발 환경 구성: 570. C# - Azure AD 인증을 지원하는 ASP.NET Core/5+ 웹 애플리케이션 예제 구성 [4]파일 다운로드1
12613정성태4/23/202116677.NET Framework: 1048. C# - ETW 이벤트의 Keywords에 속한 EventId 구하는 방법 (2) 관리 코드파일 다운로드1
12612정성태4/23/202116550.NET Framework: 1047. C# - ETW 이벤트의 Keywords에 속한 EventId 구하는 방법 (1) PInvoke파일 다운로드1
... 46  47  48  49  50  51  [52]  53  54  55  56  57  58  59  60  ...