Microsoft MVP성태의 닷넷 이야기
.NET Framework: 384. WebClient.DownloadString 문자열 인코딩 문제 [링크 복사], [링크+제목 복사],
조회: 37381
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
 
(연관된 글이 2개 있습니다.)

WebClient.DownloadString 문자열 인코딩 문제

다음과 같이 간단한 테스트를 해보면,

string txt = "http://ko.wikipedia.org/wiki/%EC%9D%B8%ED%84%B0%EB%84%B7";
WebClient wc = new WebClient();
string doc = wc.DownloadString(txt);

doc 변수에는 깨진 한글이 들어 있는 것을 볼 수 있습니다. Fiddler를 이용해 확인하면 다음과 같이 charset이 UTF-8임을 확인할 수 있습니다.

HTTP/1.0 200 OK
X-Content-Type-Options: nosniff
Content-Language: ko
Last-Modified: Tue, 10 Sep 2013 06:49:17 GMT
Content-Length: 89896
Content-Type: text/html; charset=UTF-8
...[생략]...
Connection: keep-alive

WebClient 객체의 기본 인코딩 객체는 wc.Encoding 속성으로 알 수 있는데 "SBCSCodePageEncoding"이기 때문에 한글이 깨지는 문제가 발생하는 것입니다. (한글 윈도우의 경우 "DBCSCodePageEncoding"입니다.)

따라서, 다음과 같이 명시적으로 utf-8을 설정해 주면 한글이 깨지는 문제가 해결됩니다.

string txt = "http://ko.wikipedia.org/wiki/%EC%9D%B8%ED%84%B0%EB%84%B7";
WebClient wc = new WebClient();
wc.Encoding = Encoding.UTF8;
string doc = wc.DownloadString(txt);

하지만 이 방법에는 단점이 하나 있습니다. HTML 페이지를 구하는 대상을 알고 있는 경우 이렇게 UTF-8로 정할 수 있겠지만, 무작위 웹 페이지의 경우에는 운에 맡겨지게 됩니다.




따라서, 대상 웹 페이지의 인코딩이 정해지지 않은 경우 어쩔 수 없이 DownloadString이 아닌 DownloadData를 사용한 후 응답 헤더의 Content-Type에 지정된 인코딩 값을 읽어와서 그에 맞게 디코딩해주는 식으로 구현을 해야 합니다. 아래의 코드는 이에 대한 간략한 구현이니 참고하세요. ^^

WebClient wc = new WebClient();

string url  = "http://ko.wikipedia.org/wiki/%EC%9D%B8%ED%84%B0%EB%84%B7";
byte [] docBytes = wc.DownloadData(url);
string encodeType = wc.ResponseHeaders["Content-Type"];

string charsetKey = "charset";
int pos = encodeType.IndexOf(charsetKey);

Encoding currentEncoding = Encoding.Default;
if (pos != -1)
{
    pos = encodeType.IndexOf("=", pos + charsetKey.Length);
    if (pos != -1)
    {
        string charset = encodeType.Substring(pos + 1);
        currentEncoding = Encoding.GetEncoding(charset);
    }
}

string doc = currentEncoding.GetString(docBytes); // 대상 웹 서버가 인코딩한 설정으로 디코딩!




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]






[최초 등록일: ]
[최종 수정일: 8/18/2021]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 




... 106  107  108  109  110  111  112  113  [114]  115  116  117  118  119  120  ...
NoWriterDateCnt.TitleFile(s)
11135정성태1/20/201722220Windows: 134. Windows Server 2016의 작업 표시줄에 있는 시계가 사라졌다면? [1]
11134정성태1/20/201730380.NET Framework: 636. System.Threading.Timer를 이용해 타이머 작업을 할 때 유의할 점 [5]파일 다운로드1
11133정성태1/20/201726253.NET Framework: 635. C# 개발자를 위한 Win32 DLL export 함수의 호출 규약 (2) - x86 환경의 __fastcall [1]파일 다운로드1
11132정성태1/19/201738232.NET Framework: 634. C# 개발자를 위한 Win32 DLL export 함수의 호출 규약 (1) - x86 환경에서의 __cdecl, __stdcall에 대한 Name mangling [1]파일 다운로드1
11131정성태1/13/201726731.NET Framework: 633. C# - IL 코드 분석을 위한 팁 [2]
11130정성태1/11/201727732.NET Framework: 632. x86 실행 환경에서 SECURITY_ATTRIBUTES 구조체를 CreateEvent에 전달할 때 예외 발생파일 다운로드1
11129정성태1/11/201731621.NET Framework: 631. async/await에 대한 "There Is No Thread" 글의 부가 설명 [9]파일 다운로드1
11128정성태1/9/201724835.NET Framework: 630. C# - Interlocked.CompareExchange 사용 예제 [3]파일 다운로드1
11127정성태1/8/201726047기타: 63. (개발자를 위한) Visual Studio의 "with MSDN" 라이선스 설명
11126정성태1/7/201730932기타: 62. Edge 웹 브라우저의 즐겨찾기(Favorites)를 편집/백업/복원하는 방법 [1]파일 다운로드1
11125정성태1/7/201727692개발 환경 구성: 310. IIS - appcmd.exe를 이용해 특정 페이지에 클라이언트 측 인증서를 제출하도록 설정하는 방법
11124정성태1/4/201730986개발 환경 구성: 309. 3년짜리 유효 기간을 제공하는 StartSSL [2]
11123정성태1/3/201726405.NET Framework: 629. .NET Core의 dotnet.exe CLI 명령어 확장 방법 [1]
11122정성태1/3/201724350.NET Framework: 628. TransactionScope에 사용자 정의 트랜잭션을 참여시키는 방법 [2]파일 다운로드1
11121정성태1/1/201722181개발 환경 구성: 308. "ASP.NET Core Web Application (.NET Core)"와 "ASP.NET Core Web Application (.NET Framework)" 차이점
11120정성태12/25/201630353개발 환경 구성: 307. ASP.NET Core Web Application을 IIS에서 호스팅하는 방법
11119정성태12/23/201650817개발 환경 구성: 306. Visual Studio Code에서 Python 개발 환경 구성 [2]
11118정성태12/22/201639855오류 유형: 374. Python 64비트 설치 시 0x80070659 오류 발생 [3]
11117정성태12/21/201625264웹: 35. nopCommerce 예제 사이트 구성 방법
11116정성태12/21/201627638디버깅 기술: 84. NopCommerce의 Autofac 부하(CPU, Memory) [2]
11115정성태12/21/201630564Windows: 133. 윈도우 서버 2016에서 플래시가 동작하지 않는 경우 [2]
11114정성태12/19/201642396Windows: 132. 역슬래시(backslash) 문자가 왜 통화 표기 문자(한글인 경우 "\")로 보일까요? [2]
11113정성태12/6/201622564오류 유형: 373. ICOMAdminCatalog::GetCollection에서 CO_E_ISOLEVELMISMATCH(0x8004E02F) 오류 발생파일 다운로드1
11112정성태11/23/201627628오류 유형: 372. MySQL 서비스가 올라오지 않는 경우 - Error 1067
11111정성태11/23/201636438.NET Framework: 627. C++로 만든 DLL을 C#에서 사용하기 [2]
11110정성태11/17/201624464.NET Framework: 626. Commit 메모리가 낮은 상황에서도 메모리 부족(Out-of-memory) 예외 발생 [2]
... 106  107  108  109  110  111  112  113  [114]  115  116  117  118  119  120  ...