C# - 닷넷 코어/5+에서 달라지는 System.Text.Encoding 지원
오호~~~ .NET 8에서 다음의 코드가,
var encoding = Encoding.GetEncoding("ks_c_5601-1987");
인코딩을 지원하지 않는다는 오류가 발생합니다.
System.ArgumentException
HResult=0x80070057
Message='ks_c_5601-1987' is not a supported encoding name. For information on defining a custom encoding, see the documentation for the Encoding.RegisterProvider method. (Parameter 'name')
Source=System.Private.CoreLib
StackTrace:
at System.Text.EncodingTable.InternalGetCodePageFromName(String name)
at System.Text.EncodingTable.GetCodePageFromName(String name)
at System.Text.Encoding.GetEncoding(String name)
...[생략]...
실제로
지원하는 인코딩 수가 닷넷 프레임워크 시절에 비해 확 줄었습니다.
foreach (var item in Encoding.GetEncodings())
{
Console.WriteLine(item.Name);
}
/* 출력 결과:
utf-16
utf-16BE
utf-32
utf-32BE
us-ascii
iso-8859-1
utf-8
*/
아마도, .NET Runtime의 크기를 줄이려는 과정에서 나온 것이 아닌가... 싶은데요. 이런 경우, NuGet 패키지로 분리했다고 보면 됩니다. ^^
.NET Core encoding support
; https://learn.microsoft.com/en-us/dotnet/standard/base-types/character-encoding
CodePagesEncodingProvider Class
; https://learn.microsoft.com/en-us/dotnet/api/system.text.codepagesencodingprovider
NuGet 패키지의 README에 사용 방법이 자세하게 나오는데,
Install-Package System.Text.Encoding.CodePages
; https://www.nuget.org/packages/System.Text.Encoding.CodePages/
따라서 패키지 참조 후 RegisterProvider 과정을 거친 후 예전처럼 Encoding.GetEncoding을 호출하면 됩니다.
Encoding.RegisterProvider(CodePagesEncodingProvider.Instance);
var encoding = Encoding.GetEncoding("ks_c_5601-1987");
Console.WriteLine($"{encoding.EncodingName}, {encoding.CodePage}");
혹은 등록 과정 없이 그냥 바로 사용해도 됩니다.
var encoding = CodePagesEncodingProvider.Instance.GetEncoding("ks_c_5601-1987");
Console.WriteLine($"{encoding.EncodingName}, {encoding.CodePage}");
이후 다시 지원 목록을 열거하면 다음과 같이 나옵니다.
shift_jis
IBM860
ibm861
IBM880
DOS-862
IBM863
gb2312
IBM864
IBM865
cp866
koi8-u
IBM037
ibm869
IBM500
x-mac-icelandic
IBM01140
IBM01141
IBM01142
IBM273
IBM01143
IBM01144
IBM01145
windows-1250
IBM01146
windows-1251
IBM01147
macintosh
windows-1252
DOS-720
IBM277
IBM01148
x-mac-japanese
windows-1253
IBM437
IBM278
IBM01149
x-mac-chinesetrad
windows-1254
windows-1255
Johab
windows-1256
x-mac-arabic
windows-1257
x-mac-hebrew
windows-1258
x-mac-greek
x-mac-cyrillic
IBM00924
iso-8859-2
iso-8859-3
iso-8859-4
iso-8859-5
iso-8859-6
IBM870
iso-8859-7
iso-8859-8
iso-8859-9
x-mac-turkish
x-mac-croatian
windows-874
cp875
IBM420
ks_c_5601-1987
IBM423
IBM424
IBM280
IBM01047
IBM284
IBM285
x-mac-romanian
EUC-JP
x-mac-ukrainian
x-Europa
ibm737
x-IA5
big5
x-cp20936
x-IA5-German
x-IA5-Swedish
x-IA5-Norwegian
koi8-r
ibm775
iso-8859-13
IBM290
iso-8859-15
x-Chinese-CNS
ASMO-708
IBM297
x-mac-thai
x-cp20001
IBM905
x-Chinese-Eten
x-ebcdic-koreanextended
x-cp20003
x-cp20004
x-cp20005
ibm850
IBM-Thai
ibm852
IBM871
x-mac-ce
IBM855
cp1025
x-cp20949
ibm857
IBM00858
x-cp20261
IBM1026
x-cp20269
utf-16
utf-16BE
utf-32
utf-32BE
us-ascii
iso-8859-1
utf-8
이 목록은 이전과 비교해 다음의 인코딩들이 누락되었습니다.
csISO2022JP
EUC-CN
euc-kr
GB18030
hz-gb-2312
iso-2022-jp
iso-2022-jp
iso-2022-kr
iso-8859-8-i
utf-7
x-cp50227
x-iscii-as
x-iscii-be
x-iscii-de
x-iscii-gu
x-iscii-ka
x-iscii-ma
x-iscii-or
x-iscii-pa
x-iscii-ta
x-iscii-te
x-mac-chinesesimp
x-mac-korean
그런데, 재미있는 건 저 목록에 있는 것 중에서
(.NET 5부터) "utf-7"을 제외하고는,
Unhandled exception. System.NotSupportedException: Support for UTF-7 is disabled. See https://aka.ms/dotnet-warnings/SYSLIB0001 for more information.
at System.Text.Encoding.GetEncoding(Int32 codepage)
...[생략]...
모두 정상적으로 동작합니다.
Encoding euc = Encoding.GetEncoding("euc-kr"); // "euc-kr"은 지원 목록에 없음에도!
Console.WriteLine($"{euc.EncodingName}, {euc.CodePage}");
// 출력 결과: Korean (EUC), 51949
[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]