.NET Framework: 54.5. [추가]: VS.NET으로 UTF-8 홈페이지 구성하기

부모글 보이기/감추기

오늘은 개발자 한 분이... ASP.NET에서 한글이 포함된 HTML 텍스트를 로딩했는 데, 한글이 깨진다는 문제를 들고 왔습니다.

텍스트 파일의 특성상, 가볍게 다음과 같은 코드로 마무리를 지었던 것입니다.

string fileContent = null;
using (StreamReader sr = new StreamReader(filePath))
{
fileContent = sr.ReadToEnd();
sr.Close();
}

저 역시, 위의 코드를 보고 너무 표준적인 코드라 ^^ 문제가 없어 보였지요.

.NET에서는 문자열 처리를 명시적으로 지정하지 않는 한, 기본적으로 "System.Text.UTF8Encoding"으로 처리를 합니다. 문제는 거기서 발생을 하는데요.

해당 HTML 텍스트 한글 파일은 메모장에서 "ASCII" 형식으로 저장된 것이었고, 디코딩을 UTF-8로 해버리니 당연히 깨질 수밖에 없습니다.

한글이 포함된 ASCII 코드를 정상적으로 읽어들이기 위해서는 인코딩을 지정해야 합니다. StreamReader의 두 번째 인자에는 바로 그 인코딩 방식을 지정할 수가 있죠. 우리가 아는 것처럼 "KS_C_5601-1987" 인코딩 방식을 지정해야 합니다. 다음과 같은 코드로.

using (StreamReader sr = new StreamReader(filePath, Encoding.GetEncoding("ks_c_5601-1987")))
{
fileContent = sr.ReadToEnd();
sr.Close();
}

명시적인 Encoding 문자열 지정 대신에, Encoding.Default를 지정해도 됩니다. 시스템 레벨로 설정된 (제어판의 Regional Settings) code page 값이 한글 윈도우즈에서는 기본적으로 "KS_C_5601-1987"이기 때문입니다.

하지만, 여기서 끝이 아니죠. ^^
만약 해당 파일이 utf-8 또는 unicode로 인코딩된 텍스트 파일이라면? 당연히 위의 코드로 읽어들이게 되면 역시 한글이 깨지게 됩니다.

Unicode 또는 UTF-8 등의 텍스트 파일은 그 인코딩 방법을 표시하기 위해, 파일의 최초 2~3바이트에 BOM(byte order mark)를 표시해 둡니다. utf-8로 인코딩된 텍스트 파일을 윈도우즈의 "메모장"으로 열어보면 그러한 표시를 생략하고 순수 텍스트만 보여주지만, 2진 파일 형식으로 볼 수 있는 hexa 에디터 등을 통해서 보게 되면, 최초 2~3바이트의 내용이 인코딩에 따라서 달라지는 것을 확인할 수 있습니다.

UTF-8: EF BB BF
Unicode: FF FE

실제로, BOM을 통한 디코딩을 지원하지 않는 Editor로 UTF-8 인코딩된 파일을 열게 되면, 최초 3byte를 깨진 텍스트로 출력해 주는 것을 볼 수 있습니다.

아무튼... 그렇다면, 우리도 BOM을 읽어서 상황에 따라 StreamReader의 2번째 인자에 각각 해당하는 인코딩을 넣어주면 되겠지요. ^^; 아마도 C++이었다면 틀림없이 그렇게 해야 했을 것입니다. 하지만, 우리의 "친절한 .NET 씨"(이 표현은 Loner(http://simpleisbest.net)에서 빌려옴)는 그런 작업을 모두 해놓았습니다. 바로 StreamReader의 3번째 인자에서 그러한 역할을 대신해 줍니다.

public StreamReader(..., bool detectEncodingFromByteOrderMarks);

매개변수 이름부터 그런 태생임을 짐작하게 해줍니다. 해당 값을 true로 전달하면 BOM 마크가 없는 - 예를 들어 ANSI 파일 - 경우에는 2번째 인자에서 지정한 Encoding 방식으로 인식해서 디코딩을 하지만, BOM이 있으면 거기서 지정된 Encoding 방식으로 되어 있다고 인식해서 디코딩을 하게 됩니다.

그러니... 앞으로 국내에서의 .NET 개발자들은 텍스트 파일을 로딩하기 위한 표준 코드를 다음과 같이 해야 합니다.

using (StreamReader sr = new StreamReader(filePath, Encoding.GetEncoding("ks_c_5601-1987"), true))
{
fileContent = sr.ReadToEnd();
sr.Close();
}

또는

using (StreamReader sr = new StreamReader(filePath, Encoding.Default, true))
{
fileContent = sr.ReadToEnd();
sr.Close();
}

두 가지 모두, 경우에 따라서 논란의 여지가 있지만... 적어도 한글 윈도우즈에서 호스팅된다는 보장만 된다면, "Encoding.Default" 인자가 가장 좋을 것 같네요. ^^

-------------------------------- 유사한 문제 1 ------------------------------------------

파일 업로드 컴포넌트를 사용하는 중에 발생한 문제입니다. multipart/form-data 중에서 File을 제외한 일반적인 Form data를 전송할 때 value 값을 urlencode로 전송을 했습니다.

예를 들어, 한글로 "마이" 값을 urlencode하면,

%b8%b6%c0%cc

이 나옵니다. 한글 1자가 2byte이니까, 각각의 byte에 대한 hexa 처리를 하니 위와 같은 결과가 나오는 것이지요.

서버 측에서

string txt = Request.Form["key"];

로 받으면, txt == "%b6%b8%cc%c0" 값이 당연히 들어가 있겠지요.

그다음,

string value = Server.UrlDecode(txt);

라고 했더니, 값이 깨져 나오거나 아예 빈 문자열이 반환되는 것입니다. 이번 경우에도 여기 문자열 인코딩과 관계된 오류가 발생한 것입니다.

<globalization/>에서 기본적으로 utf-8로 설정되어 있었기 때문에, 실제로 "마이"라는 한글값은 utf-8로 하게 되면 한글 1자당 3byte가 할당되게 됩니다. 즉, UTF-8 인코딩 기준으로 "마이"를 urlencode하면,

%eb%a7%88%ec%9d%b4

가 나옵니다. 위의 결과값을 urldecode해야 정상적으로 "마이"가 나오게 되는 것이지요.

자, 이제 문제를 알았으니... ^^ UrlDecode 관련해서 System.Text.Encoding 변수를 받는 메서드가 있는지 검사해봐야 할 것입니다. Server.UrlDecode를 Reflection으로 보게 되면 HttpUtility.UrlDecode를 그대로 호출하는 것을 볼 수 있습니다. 그런데 ^^ 거기에 Encoding을 같이 지정하는 것을 볼 수 있습니다.

public string UrlDecode(string s)
{
Encoding encoding1 = (this._context != null) ? this._context.Request.ContentEncoding : Encoding.UTF8;
return HttpUtility.UrlDecode(s, encoding1);
}

답은 나왔네요. ^^

mode = HttpUtility.UrlDecode(Page.Request["key"], System.Text.Encoding.Default); // regional settings에서 Korean으로 지정된 경우
또는
mode = HttpUtility.UrlDecode(Page.Request["key"], System.Text.Encoding.GetEncoding("ks_c_5601-1987"));

-------------------------------- 유사한 문제 2 ------------------------------------------

역시 같은 문제입니다. 이번에는 읽기가 아닌 저장할 때 발생합니다. 개발자 한 분이, 소스 파일을 읽어서 저장하는 코드를 다음과 같이 작성했습니다.

using (StreamWriter sw = File.CreateText(Page.MapPath("~/test.txt")))
{
sw.Write("한글");
sw.Close();
}

저장하면,,, 다음과 같은 바이트 배열이 나옵니다.

0xed,0x95,0x9c,0xea,0xb8,0x80

일단, 한글 1자에 3byte씩이니까, UTF-8이 맞는 것 같습니다.
그런데, BOM 영역이 없습니다. 이렇게 된 파일을 "메모장"이나 "VS.NET IDE"에서 읽어들인다 해도 한글이 깨지지는 않습니다.(아마도, 그런 에디터는 BOM에 의존하지 않는 것 같습니다.) 문제는, 부모글에서 알려드린 방법으로 읽을 때 나타납니다.

using (StreamReader sr = new StreamReader(filePath, Encoding.Default, true))
{
fileContent = sr.ReadToEnd();
sr.Close();
}

BOM 영역이 없기 때문에, 기본적으로 Encoding.Default에 명시된 인코딩이 되었다고 가정을 하게 되니 - 한글 윈도우즈에서는 "ks_c_5601-1987" - 당연히 글자가 깨져 버리게 됩니다.

읽어들이는 쪽에서 별도로 수정을 해줄 수도 있겠지만, 근본적인 원인은 저장하는 쪽에서 발생했기 때문에 마찬가지로 Encoding 방식을 지정해서 저장을 해주는 것이 바람직하겠습니다.

using (StreamWriter sw = new StreamWriter(Page.MapPath("~/test.txt"), false, System.Text.Encoding.UTF8))
{
sw.Write("한글");
sw.Close();
}

이렇게 저장하면, 바이트 코드로 다음과 같이 파일이 구성됩니다.

0xef,0xbb,0xbf,0xed,0x95,0x9c,0xea,0xb8,0x80

첫 글에서 살펴봤었던, "0xef,0xbb,0xbf" UTF-8 BOM 영역이 분명하게 들어간 것을 볼 수 있습니다.

만약, 위와 같이 문제를 해결하지 않았다면... 아마도 해당 사이트의 <globalization />에는 "euc-kr" 또는 "ks_c_5601-1987"이 있겠지요.

(연관된 글이 1개 있습니다.)

1. web.config의 globalization 속성을 다음과 같이 지정
    <globalization
            requestEncoding="utf-8"
            responseEncoding="utf-8"
   />

2. 모든 aspx 페이지를 "ansi" 코드 페이지로 저장

3. 모든 script 파일, css 파일, htc 파일 등을 "UTF-8" 인코딩으로 저장

음... 그 외에는 별달리 해줄 일이 없을 것 같군요. 나머지는 프로그램하다가 만나게 되는 사소한 문제들일 것 같고. ^^ 별다른 내용이 있으면 다음에 또 추가해 넣도록 하겠습니다.

생각보다 너무 간단하군요. ^^

------- [ 추가: 2005-12-27 ] -------------
일단, 위의 2번 사항에 대해 추가 설명을 해야 할 필요가 있을 것 같습니다.
왜? "ansi"로 저장하느냐?
그 이유는, 개발 환경의 편리함 때문입니다. 이유는 알 수 없지만, VS.NET 통합환경에서 제공하는 웹폼 에디터가 저장하는 방식이 바로 "Ansi" 입니다. 또한, 명시적으로 UTF-8을 지정해서 저장하게 되면,,,, 아쉽게도 BOM을 함께 써주지 않고 저장을 하고 있습니다. ASP.NET은 기본적으로 해당 파일이 Encoding.Default(한글 윈도우즈의 경우에는 "ks_c_5601-1987")이라고 가정하고 읽어 들입니다. 물론, 명시적으로 BOM 영역이 있으면 그에 맞춰 인코딩 처리를 하게 됩니다.

만약, aspx 웹 폼 파일까지도 UTF-8로 처리하고 싶다면, VS.NET IDE 환경에서 저장하시면 안되고, 메모장을 열어서 UTF-8로 인코딩 시켜서 저장해야 합니다. 메모장은, BOM 영역을 확실히 기록해 줍니다.

물론, BOM 영역이 없는 체로 UTF-8로 인코딩된 aspx 파일을 처리할 수도 있습니다. globalization 요소의 또 다른 속성인 fileEncoding을 통해서 가능한데, 이 값에 "utf-8"을 명시해 주어야 합니다. 그런 경우, BOM 영역이 없는 파일에 대해 기본 인코딩이 utf-8이라고 여김으로 정상적인 한글 처리가 가능합니다.

따라서, VS.NET 통합환경에서 aspx 페이지를 UTF-8로 명시적으로 지정해서 저장하는 경우에는 반드시 fileEncoding 속성을 utf-8로 주어야 합니다.

[다음 글] .NET Framework: 54.4. [관련 문제] A 태그의 href에서의 문제.
[이전 글] .NET Framework: 53. .NET Remoting: 메시지 교체

[연관 글]

utf-8 환경에서 파라미터 값에 한글이 있을 경우 깨지는 현상이..

[최초 등록일: 12/27/2005]
[최종 수정일: 7/9/2021]

이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.

by SeongTae Jeong, mailto:techsharer at outlook.com

No	Writer	Date	Cnt.	Title	File(s)
13462	정성태	11/27/2023	16361	오류 유형: 880. Visual Studio - error CS0246: The type or namespace name '...' could not be found
13461	정성태	11/26/2023	16489	닷넷: 2173. .NET Core 3/5+ 기반의 COM Server를 registry 등록 없이 사용하는 방법	1
13460	정성태	11/26/2023	16190	닷넷: 2172. .NET 6+ 기반의 COM Server 내에 Type Library를 내장하는 방법	1
13459	정성태	11/26/2023	17958	닷넷: 2171. .NET Core 3/5+ 기반의 COM Server를 기존의 regasm처럼 등록하는 방법	1
13458	정성태	11/26/2023	18377	닷넷: 2170. .NET Core/5+ 기반의 COM Server를 tlb 파일을 생성하는 방법(tlbexp)
13457	정성태	11/25/2023	16650	VS.NET IDE: 187. Visual Studio - 16.9 버전부터 추가된 "Display inline type hints" 옵션
13456	정성태	11/25/2023	19076	닷넷: 2169. C# - OpenAI를 사용해 PDF 데이터를 대상으로 OpenAI 챗봇 작성 [1]	1
13455	정성태	11/25/2023	18726	닷넷: 2168. C# - Azure.AI.OpenAI 패키지로 OpenAI 사용	1
13454	정성태	11/23/2023	21730	닷넷: 2167. C# - Qdrant Vector DB를 이용한 Embedding 벡터 값 보관/조회 (Azure OpenAI) [2]	1
13453	정성태	11/23/2023	15210	오류 유형: 879. docker desktop 설치 시 "Invalid JSON string. (Exception from HRESULT: 0x83750007)"
13452	정성태	11/22/2023	16357	닷넷: 2166. C# - Azure OpenAI API를 이용해 사용자가 제공하는 정보를 대상으로 검색하는 방법	1
13451	정성태	11/21/2023	16916	닷넷: 2165. C# - Azure OpenAI API를 이용해 ChatGPT처럼 동작하는 콘솔 응용 프로그램 제작	1
13450	정성태	11/21/2023	16957	닷넷: 2164. C# - Octokit을 이용한 GitHub Issue 검색	1
13449	정성태	11/21/2023	17991	개발 환경 구성: 688. Azure OpenAI 서비스 신청 방법
13448	정성태	11/20/2023	15226	닷넷: 2163. .NET 8 - Dynamic PGO를 결합한 성능 향상	1
13447	정성태	11/16/2023	16438	닷넷: 2162. ASP.NET Core 웹 사이트의 SSL 설정을 코드로 하는 방법
13446	정성태	11/16/2023	18003	닷넷: 2161. .NET Conf 2023 - Day 1 Blazor 개요 정리
13445	정성태	11/15/2023	19884	Linux: 62. 리눅스/WSL에서 CA 인증서를 저장하는 방법
13444	정성태	11/15/2023	18805	닷넷: 2160. C# 12 - Experimental 특성 지원
13443	정성태	11/14/2023	17515	개발 환경 구성: 687. OpenSSL로 생성한 사용자 인증서를 ASP.NET Core 웹 사이트에 적용하는 방법
13442	정성태	11/13/2023	16246	개발 환경 구성: 686. 비주얼 스튜디오로 실행한 ASP.NET Core 사이트를 WSL 2 인스턴스에서 https로 접속하는 방법
13441	정성태	11/12/2023	17489	닷넷: 2159. C# - ASP.NET Core 프로젝트에서 서버 Socket을 직접 생성하는 방법	1
13440	정성태	11/11/2023	14848	Windows: 253. 소켓 Listen 시 방화벽의 Public/Private 제어 기능이 비활성화된 경우
13439	정성태	11/10/2023	17625	닷넷: 2158. C# - 소켓 포트를 미리 시스템에 등록/예약해 사용하는 방법(Port Exclusion Ranges)	1
13438	정성태	11/9/2023	18972	닷넷: 2157. C# - WinRT 기능을 이용해 윈도우에서 실행 중인 Media App 제어
13437	정성태	11/8/2023	19080	닷넷: 2156. .NET 7 이상의 콘솔 프로그램을 (dockerfile 없이) 로컬 docker에 배포하는 방법

AD BLOCK 해제 요청