C# 문자열의 인코딩이란?
오늘 아는 분으로부터 뜻밖의 질문을 받아서... ^^ 음... 이런 것도 헷갈릴 수 있겠구나... 하는 생각이 들어 정리해 보았습니다.
일단, 그 분의 질문은 이런 것이었습니다.
Java의 Netty 서버로 전송하는데, 당연히 Java 클라이언트는 잘 실행이 되지만 C#으로 만든 클라이언트는 한글만 들어가면 호출에 실패한다.
이런 경우... 대부분 인코딩 문제인데요. 그래서, Java 클라이언트와 C# 클라이언트를 각각 실행하고 그 순간의 통신을
Network Monitor로 가로채서 한글이 있는 부분을 확인해 보라고 했습니다.
그 결과, "서울"이라는 문자열을 보낸 경우 각각 다음의 바이트 값들이 보였다고 합니다.
* Java
EC 84 9c EC 9A B8
* C#
BC AD BF EF
해보시면 알겠지만, Java의 결과는 UTF-8 인코딩 된 바이트 스트림이고, C#의 결과는 ks_c_5601-1987의 것입니다. 원인 파악이 되었으니 이제 다음과 같이 코딩을 해서 넘겨주면 되는 일이었습니다.
string txt = "서울";
byte [] contents = Encoding.UTF8.GetBytes(txt);
// 이후, contents 배열을 Netty 서버에 전송
그런데, 그 분이 즐겨 사용하던 Netty용 C# 라이브러리의 전송 API가 다음과 같이 문자열을 받는 것이었다고 합니다.
public class Netty
{
public static void Send(string txt);
}
그래서... 전송을 아래와 같은 식으로 해버린 것이지요.
===== 전에는 이렇게 했는데 =====
string txt = "서울";
Netty.Send(txt);
===== 인코딩을 위해 다음과 같이 변경 =====
string txt = "서울";
byte [] contents = Encoding.UTF8.GetBytes(txt);
string output = Encoding.UTF8.GetString(contents);
Netty.Send(output); // 다시 C# string 인스턴스를 인자로 제공
문제는, ^^ 인코딩을 한 바이트 배열을 다시 string으로 변환했다고 해서 그것이 C# string의 메모리에 UTF-8로 저장되는 것은 아니라는 점입니다. 왜냐하면, C#은 string 인스턴스의 모든 바이트 배열을 무조건 UTF-16 LE 방식으로 인코딩시켜 메모리에 들고 있기 때문입니다. 즉, 모든 Encoding.GetString 메서드는 특정 인코딩 방식으로 변환된 바이트 배열을 UTF-16 LE 인코딩으로 다시 변환시키는 역할을 합니다.
위의 코드가 문제가 되는 이유는 결국 Netty.Send 메서드 내에서 다음과 같이 전송을 하기 때문입니다.
public static void Send(string txt)
{
byte [] encoded = Encoding.Default.GetBytes(txt); // 한글 윈도우의 경우, Default == ks_c_5601-1987
Socket.Send(encoded);
}
이를 해결하기 위해서는 Netty 라이브러리가 인코딩 인자를 하나 더 받는 메서드를 제공해 주던가,
public static void Send(string txt, Encoding encoder)
{
byte [] encoded = encoder.GetBytes(txt);
Socket.Send(encoded);
}
Netty.Send("서울", Encoding.UTF8);
아니면 직접 바이트 배열을 받는 메서드가 있어야 합니다.
public static void Send(byte [] buffer)
{
Socket.Send(buffer);
}
byte [] contents = Encoding.UTF8.GetBytes(txt);
Netty.Send(contents);
(2020-10-24 업데이트) 공식적이지는 않지만 이런 상황에서 다음의 우회 방법이 있습니다.
C# - Encoding.Default 값을 바꿀 수 있을까요?
; https://www.sysnet.pe.kr/2/0/12037
참고로, 다음의 글을 보시면 더욱 도움이 되겠지요. ^^
유니코드와 한글 - 유니코드와 닷넷을 이용한 한글 처리
; https://www.sysnet.pe.kr/2/0/1294
[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]