Microsoft MVP성태의 닷넷 이야기
.NET Framework: 384. WebClient.DownloadString 문자열 인코딩 문제 [링크 복사], [링크+제목 복사],
조회: 36170
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
 
(연관된 글이 2개 있습니다.)

WebClient.DownloadString 문자열 인코딩 문제

다음과 같이 간단한 테스트를 해보면,

string txt = "http://ko.wikipedia.org/wiki/%EC%9D%B8%ED%84%B0%EB%84%B7";
WebClient wc = new WebClient();
string doc = wc.DownloadString(txt);

doc 변수에는 깨진 한글이 들어 있는 것을 볼 수 있습니다. Fiddler를 이용해 확인하면 다음과 같이 charset이 UTF-8임을 확인할 수 있습니다.

HTTP/1.0 200 OK
X-Content-Type-Options: nosniff
Content-Language: ko
Last-Modified: Tue, 10 Sep 2013 06:49:17 GMT
Content-Length: 89896
Content-Type: text/html; charset=UTF-8
...[생략]...
Connection: keep-alive

WebClient 객체의 기본 인코딩 객체는 wc.Encoding 속성으로 알 수 있는데 "SBCSCodePageEncoding"이기 때문에 한글이 깨지는 문제가 발생하는 것입니다. (한글 윈도우의 경우 "DBCSCodePageEncoding"입니다.)

따라서, 다음과 같이 명시적으로 utf-8을 설정해 주면 한글이 깨지는 문제가 해결됩니다.

string txt = "http://ko.wikipedia.org/wiki/%EC%9D%B8%ED%84%B0%EB%84%B7";
WebClient wc = new WebClient();
wc.Encoding = Encoding.UTF8;
string doc = wc.DownloadString(txt);

하지만 이 방법에는 단점이 하나 있습니다. HTML 페이지를 구하는 대상을 알고 있는 경우 이렇게 UTF-8로 정할 수 있겠지만, 무작위 웹 페이지의 경우에는 운에 맡겨지게 됩니다.




따라서, 대상 웹 페이지의 인코딩이 정해지지 않은 경우 어쩔 수 없이 DownloadString이 아닌 DownloadData를 사용한 후 응답 헤더의 Content-Type에 지정된 인코딩 값을 읽어와서 그에 맞게 디코딩해주는 식으로 구현을 해야 합니다. 아래의 코드는 이에 대한 간략한 구현이니 참고하세요. ^^

WebClient wc = new WebClient();

string url  = "http://ko.wikipedia.org/wiki/%EC%9D%B8%ED%84%B0%EB%84%B7";
byte [] docBytes = wc.DownloadData(url);
string encodeType = wc.ResponseHeaders["Content-Type"];

string charsetKey = "charset";
int pos = encodeType.IndexOf(charsetKey);

Encoding currentEncoding = Encoding.Default;
if (pos != -1)
{
    pos = encodeType.IndexOf("=", pos + charsetKey.Length);
    if (pos != -1)
    {
        string charset = encodeType.Substring(pos + 1);
        currentEncoding = Encoding.GetEncoding(charset);
    }
}

string doc = currentEncoding.GetString(docBytes); // 대상 웹 서버가 인코딩한 설정으로 디코딩!




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]






[최초 등록일: ]
[최종 수정일: 8/18/2021]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 




... 151  [152]  153  154  155  156  157  158  159  160  161  162  163  164  165  ...
NoWriterDateCnt.TitleFile(s)
1286정성태5/17/201239446.NET Framework: 319. regasm.exe로 어셈블리 등록 시 시스템 변경 사항 (1) - .NET 2.0 + x86/x64/AnyCPU [5]
1285정성태5/16/201234574.NET Framework: 318. gacutil.exe로 어셈블리 등록 시 시스템 변경 사항파일 다운로드1
1284정성태5/15/201226997오류 유형: 155. Windows Phone 연결 상태에서 DRIVER POWER STATE FAILURE 블루 스크린 뜨는 현상
1283정성태5/12/201234674.NET Framework: 317. C# 관점에서의 Observer 패턴 구현 [1]파일 다운로드1
1282정성태5/12/201227418Phone: 6. Windows Phone 7 Silverlight에서 Google Map 사용하는 방법 [3]파일 다운로드1
1281정성태5/9/201234444.NET Framework: 316. WPF/Silverlight의 그래픽 단위와 Anti-aliasing 처리를 이해하자 [1]파일 다운로드1
1280정성태5/9/201227558오류 유형: 154. Could not load type 'System.ServiceModel.Activation.HttpModule' from assembly 'System.ServiceModel, ...'.
1279정성태5/9/201226309.NET Framework: 315. 해당 DLL이 Managed인지 / Unmanaged인지 확인하는 방법 [1]파일 다운로드1
1278정성태5/8/201227703오류 유형: 153. Visual Studio 디버깅 - Unable to break execution. This process is not currently executing the type of code that you selected to debug.
1277정성태5/8/201232665오류 유형: 152. cmd.exe - The system cannot write to the specified device. [2]
1276정성태4/28/201224583Phone: 5. 모든 Marketplace에 윈폰 앱을 등록하는 방법 [1]
1275정성태4/28/201228191개발 환경 구성: 150. 프로세스 실행으로 잠긴 파일이지만, 이름은 변경가능하다는 사실! 아셨나요? [7]
1274정성태4/17/201222871Phone: 4. "Holiday Calendar" 윈폰 응용 프로그램 등록
1273정성태4/6/201226233Phone: 3. 윈도우 폰을 위한 Holiyday Calendar 앱 개발파일 다운로드1
1272정성태4/5/201227336오류 유형: 151. ASP.NET - EcbGetUnicodeServerVariables 코드에서 System.AccessViolationException 예외 발생
1271정성태4/3/201229838Math: 6. 동전을 여러 더미로 나누는 경우의 수 세기 [1]
1270정성태3/29/201224334오류 유형: 150. Visual Studio 2010 원격 디버깅 오류 - Kerberos authentication failed
1269정성태3/27/201238267오류 유형: 149. ODP.NET 오류 - The provider is not compatible with the version of Oracle client
1268정성태3/27/201234540오류 유형: 148. WCF svc 호출 시 HTTP Error 404.17 - Not Found [1]
1267정성태3/16/201232725.NET Framework: 314. C++의 inline asm 사용을 .NET으로 포팅하는 방법 [1]파일 다운로드1
1266정성태3/14/201235839개발 환경 구성: 149. RAID 1 구성 시 하드 디스크 장애 발생 해결에 대한 경험담
1265정성태3/13/201226061VC++: 61. 아이태니엄(IA64: Itanium) 에서 겪은 C++ 포인터 연산 문제 [2]
1264정성태3/10/201245634.NET Framework: 313. WELL512 난수 발생 알고리즘 - C# [5]파일 다운로드1
1263정성태3/9/201224268개발 환경 구성: 148. tinyget 사용법
1262정성태3/8/201245137개발 환경 구성: 147. .keystore 파일에 저장된 개인키 추출 방법과 인증기관으로부터 온 공개키를 합친 pfx 파일 만드는 방법 [1]
1261정성태3/7/201225731Phone: 2. 개발자용 윈도우 폰 7 기기 등록하는 방법
... 151  [152]  153  154  155  156  157  158  159  160  161  162  163  164  165  ...