Microsoft MVP성태의 닷넷 이야기
.NET Framework: 384. WebClient.DownloadString 문자열 인코딩 문제 [링크 복사], [링크+제목 복사],
조회: 34807
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
 
(연관된 글이 2개 있습니다.)

WebClient.DownloadString 문자열 인코딩 문제

다음과 같이 간단한 테스트를 해보면,

string txt = "http://ko.wikipedia.org/wiki/%EC%9D%B8%ED%84%B0%EB%84%B7";
WebClient wc = new WebClient();
string doc = wc.DownloadString(txt);

doc 변수에는 깨진 한글이 들어 있는 것을 볼 수 있습니다. Fiddler를 이용해 확인하면 다음과 같이 charset이 UTF-8임을 확인할 수 있습니다.

HTTP/1.0 200 OK
X-Content-Type-Options: nosniff
Content-Language: ko
Last-Modified: Tue, 10 Sep 2013 06:49:17 GMT
Content-Length: 89896
Content-Type: text/html; charset=UTF-8
...[생략]...
Connection: keep-alive

WebClient 객체의 기본 인코딩 객체는 wc.Encoding 속성으로 알 수 있는데 "SBCSCodePageEncoding"이기 때문에 한글이 깨지는 문제가 발생하는 것입니다. (한글 윈도우의 경우 "DBCSCodePageEncoding"입니다.)

따라서, 다음과 같이 명시적으로 utf-8을 설정해 주면 한글이 깨지는 문제가 해결됩니다.

string txt = "http://ko.wikipedia.org/wiki/%EC%9D%B8%ED%84%B0%EB%84%B7";
WebClient wc = new WebClient();
wc.Encoding = Encoding.UTF8;
string doc = wc.DownloadString(txt);

하지만 이 방법에는 단점이 하나 있습니다. HTML 페이지를 구하는 대상을 알고 있는 경우 이렇게 UTF-8로 정할 수 있겠지만, 무작위 웹 페이지의 경우에는 운에 맡겨지게 됩니다.




따라서, 대상 웹 페이지의 인코딩이 정해지지 않은 경우 어쩔 수 없이 DownloadString이 아닌 DownloadData를 사용한 후 응답 헤더의 Content-Type에 지정된 인코딩 값을 읽어와서 그에 맞게 디코딩해주는 식으로 구현을 해야 합니다. 아래의 코드는 이에 대한 간략한 구현이니 참고하세요. ^^

WebClient wc = new WebClient();

string url  = "http://ko.wikipedia.org/wiki/%EC%9D%B8%ED%84%B0%EB%84%B7";
byte [] docBytes = wc.DownloadData(url);
string encodeType = wc.ResponseHeaders["Content-Type"];

string charsetKey = "charset";
int pos = encodeType.IndexOf(charsetKey);

Encoding currentEncoding = Encoding.Default;
if (pos != -1)
{
    pos = encodeType.IndexOf("=", pos + charsetKey.Length);
    if (pos != -1)
    {
        string charset = encodeType.Substring(pos + 1);
        currentEncoding = Encoding.GetEncoding(charset);
    }
}

string doc = currentEncoding.GetString(docBytes); // 대상 웹 서버가 인코딩한 설정으로 디코딩!




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]






[최초 등록일: ]
[최종 수정일: 8/18/2021]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 




... 31  32  33  34  35  36  37  38  39  40  41  42  43  44  [45]  ...
NoWriterDateCnt.TitleFile(s)
12812정성태8/28/202116601.NET Framework: 1108. C# 10 - (10) 개선된 #line 지시자
12811정성태8/27/202116479Linux: 44. 윈도우 개발자를 위한 리눅스 fork 동작 방식 설명 (파이썬 코드)
12810정성태8/27/202115492.NET Framework: 1107. .NET Core/5+에서 동적 컴파일한 C# 코드를 (Breakpoint도 활용하며) 디버깅하는 방법 - #line 지시자파일 다운로드1
12809정성태8/26/202115461.NET Framework: 1106. .NET Core/5+에서 C# 코드를 동적으로 컴파일/사용하는 방법 [1]파일 다운로드1
12808정성태8/25/202117112오류 유형: 758. go: ...: missing go.sum entry; to add it: go mod download ...
12807정성태8/25/202117879.NET Framework: 1105. C# 10 - (9) 비동기 메서드가 사용할 AsyncMethodBuilder 선택 가능파일 다운로드1
12806정성태8/24/202114427개발 환경 구성: 601. PyCharm - 다중 프로세스 디버깅 방법
12805정성태8/24/202116136.NET Framework: 1104. C# 10 - (8) 분해 구문에서 기존 변수의 재사용 가능파일 다운로드1
12804정성태8/24/202116304.NET Framework: 1103. C# 10 - (7) Source Generator V2 APIs
12803정성태8/23/202116809개발 환경 구성: 600. pip cache 디렉터리 옮기는 방법
12802정성태8/23/202117231.NET Framework: 1102. .NET Conf Mini 21.08 - WinUI 3 따라해 보기 [1]
12801정성태8/23/202116818.NET Framework: 1101. C# 10 - (6) record class 타입의 ToString 메서드를 sealed 처리 허용파일 다운로드1
12800정성태8/22/202117192개발 환경 구성: 599. PyCharm - (반대로) 원격 프로세스가 PyCharm에 디버그 연결하는 방법
12799정성태8/22/202117490.NET Framework: 1100. C# 10 - (5) 속성 패턴의 개선파일 다운로드1
12798정성태8/21/202118827개발 환경 구성: 598. PyCharm - 원격 프로세스를 디버그하는 방법
12797정성태8/21/202116200Windows: 197. TCP의 MSS(Maximum Segment Size) 크기는 고정된 것일까요?
12796정성태8/21/202117199.NET Framework: 1099. C# 10 - (4) 상수 문자열에 포맷 식 사용 가능파일 다운로드1
12795정성태8/20/202117515.NET Framework: 1098. .NET 6에 포함된 신규 BCL API - 스레드 관련
12794정성태8/20/202116884스크립트: 23. 파이썬 - WSGI를 만족하는 최소한의 구현 코드 및 PyCharm에서의 디버깅 방법 [1]
12793정성태8/20/202117684.NET Framework: 1097. C# 10 - (3) 개선된 변수 초기화 판정파일 다운로드1
12792정성태8/19/202118798.NET Framework: 1096. C# 10 - (2) 전역 네임스페이스 선언파일 다운로드1
12791정성태8/19/202115617.NET Framework: 1095. C# COM 개체를 C++에서 사용하는 예제 [3]파일 다운로드1
12790정성태8/18/202119550.NET Framework: 1094. C# 10 - (1) 구조체를 생성하는 record struct파일 다운로드1
12789정성태8/18/202118215개발 환경 구성: 597. PyCharm - 윈도우 환경에서 WSL을 이용해 파이썬 앱 개발/디버깅하는 방법
12788정성태8/17/202115754.NET Framework: 1093. C# - 인터페이스의 메서드가 다형성을 제공할까요? (virtual일까요?)파일 다운로드1
12787정성태8/17/202116143.NET Framework: 1092. (책 내용 수정) "4.5.1.4 인터페이스"의 "인터페이스와 다형성"
... 31  32  33  34  35  36  37  38  39  40  41  42  43  44  [45]  ...