Microsoft MVP성태의 닷넷 이야기
.NET Framework: 384. WebClient.DownloadString 문자열 인코딩 문제 [링크 복사], [링크+제목 복사],
조회: 38944
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
 
(연관된 글이 2개 있습니다.)

WebClient.DownloadString 문자열 인코딩 문제

다음과 같이 간단한 테스트를 해보면,

string txt = "http://ko.wikipedia.org/wiki/%EC%9D%B8%ED%84%B0%EB%84%B7";
WebClient wc = new WebClient();
string doc = wc.DownloadString(txt);

doc 변수에는 깨진 한글이 들어 있는 것을 볼 수 있습니다. Fiddler를 이용해 확인하면 다음과 같이 charset이 UTF-8임을 확인할 수 있습니다.

HTTP/1.0 200 OK
X-Content-Type-Options: nosniff
Content-Language: ko
Last-Modified: Tue, 10 Sep 2013 06:49:17 GMT
Content-Length: 89896
Content-Type: text/html; charset=UTF-8
...[생략]...
Connection: keep-alive

WebClient 객체의 기본 인코딩 객체는 wc.Encoding 속성으로 알 수 있는데 "SBCSCodePageEncoding"이기 때문에 한글이 깨지는 문제가 발생하는 것입니다. (한글 윈도우의 경우 "DBCSCodePageEncoding"입니다.)

따라서, 다음과 같이 명시적으로 utf-8을 설정해 주면 한글이 깨지는 문제가 해결됩니다.

string txt = "http://ko.wikipedia.org/wiki/%EC%9D%B8%ED%84%B0%EB%84%B7";
WebClient wc = new WebClient();
wc.Encoding = Encoding.UTF8;
string doc = wc.DownloadString(txt);

하지만 이 방법에는 단점이 하나 있습니다. HTML 페이지를 구하는 대상을 알고 있는 경우 이렇게 UTF-8로 정할 수 있겠지만, 무작위 웹 페이지의 경우에는 운에 맡겨지게 됩니다.




따라서, 대상 웹 페이지의 인코딩이 정해지지 않은 경우 어쩔 수 없이 DownloadString이 아닌 DownloadData를 사용한 후 응답 헤더의 Content-Type에 지정된 인코딩 값을 읽어와서 그에 맞게 디코딩해주는 식으로 구현을 해야 합니다. 아래의 코드는 이에 대한 간략한 구현이니 참고하세요. ^^

WebClient wc = new WebClient();

string url  = "http://ko.wikipedia.org/wiki/%EC%9D%B8%ED%84%B0%EB%84%B7";
byte [] docBytes = wc.DownloadData(url);
string encodeType = wc.ResponseHeaders["Content-Type"];

string charsetKey = "charset";
int pos = encodeType.IndexOf(charsetKey);

Encoding currentEncoding = Encoding.Default;
if (pos != -1)
{
    pos = encodeType.IndexOf("=", pos + charsetKey.Length);
    if (pos != -1)
    {
        string charset = encodeType.Substring(pos + 1);
        currentEncoding = Encoding.GetEncoding(charset);
    }
}

string doc = currentEncoding.GetString(docBytes); // 대상 웹 서버가 인코딩한 설정으로 디코딩!




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]






[최초 등록일: ]
[최종 수정일: 8/18/2021]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 




... 136  137  138  [139]  140  141  142  143  144  145  146  147  148  149  150  ...
NoWriterDateCnt.TitleFile(s)
1671정성태5/15/201428781.NET Framework: 436. XNA Content 리소스의 해제 후 다시 로드해서 사용하면 ObjectDisposedException 예외 발생 [2]
1670정성태5/15/201429209.NET Framework: 435. .NET GC - 하위 세대의 객체를 포함하는 상위 세대의 참조를 추적하기 위한 card-table
1669정성태5/15/201449205Windows: 93. 윈도우 시스템 디스크 용량 확보를 위한 $PatchCache$ 폴더 삭제 [2]
1668정성태5/10/201427857.NET Framework: 434. Microsoft.SqlServer.Types.SqlGeography 형변환 시 null 반환하는 문제
1667정성태5/5/201429054개발 환경 구성: 221. Azure 데이터베이스를 로컬 DB로 이전하는 방법 [2]
1666정성태5/2/201445856기타: 45. 윈도우 계정의 암호를 알아내는 mimikatz 도구 [5]
1665정성태5/1/201429003.NET Framework: 433. C# - 간단한 HyperLogLog 자료 구조 테스트파일 다운로드1
1664정성태4/28/201426707오류 유형: 227. Process Explorer의 프로세스 뷰가 트리 형식으로 보이지 않는 문제
1663정성태4/28/201422767오류 유형: 226. Visual Studio - We were unable to establish the connection because it is configured for user
1662정성태4/28/201427833개발 환경 구성: 220. supportedRuntime 설정을 위한 app.config Transformation [1]
1661정성태4/26/201423600.NET Framework: 432. WPF - System.Windows.Data Error: 47 : XmlDataProvider has inline XML that does not explicitly set its XmlNamespace (xmlns="").
1660정성태4/25/201431683VC++: 77. C++ 숫자형 값이 범위를 벗어나는 경우의 출력 사례 모음
1659정성태4/17/201432398.NET Framework: 431. .NET EXE 파일을 닷넷 프레임워크 버전에 상관없이 실행할 수 있을까요? [5]
1658정성태4/17/201423322.NET Framework: 430. C#에서 사용자 정의 예약어가 가능할까요? [1]
1657정성태4/10/201444166.NET Framework: 429. C# - 유니코드 한글 문자열을 ks_c_5601-1987로 변환하는 방법 [3]파일 다운로드1
1656정성태3/19/201426946오류 유형: 225. regsvcs 등록 시 0x80040153 오류
1655정성태3/19/201427296Windows: 92. Thumbs.db 파일이 삭제 안 되는 문제
1654정성태3/19/201429478개발 환경 구성: 219. SOS.dll 확장 모듈을 버전 별로 구하는 방법 [4]
1653정성태3/13/201424016.NET Framework: 428. .NET Reflection으로 다차원/Jagged 배열을 구분하는 방법
1652정성태3/12/201424630VC++: 76. Direct Show를 사용하는 다른 프로그램의 필터 그래프를 graphedt.exe에서 확인하는 방법파일 다운로드1
1651정성태3/11/201429318.NET Framework: 427. C# 컴파일러는 변수를 초기화시키지 않을까요?
1650정성태3/6/201429970VC++: 75. Visual C++ 컴파일 오류 - Cannot use __try in functions that require object unwinding [1]파일 다운로드1
1649정성태3/5/201424241기타: 44. BTN 스토어 앱 개인정보 보호 정책 안내
1648정성태3/5/201424743개발 환경 구성: 218. 스토어 앱 인증 실패 - no privacy statement
1647정성태3/3/201426161오류 유형: 224. 스카이드라이브 비정상 종료 - Error 0x80040A41: No error description available
1646정성태3/3/201435700오류 유형: 223. Microsoft-Windows-DistributedCOM 10016 이벤트 로그 에러 [1]
... 136  137  138  [139]  140  141  142  143  144  145  146  147  148  149  150  ...