Microsoft MVP성태의 닷넷 이야기
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
(연관된 글이 2개 있습니다.)

Html Agility Pack 소개 - 웹 문서에서 텍스트만 분리하는 방법

예전에는 Internet Explorer의 COM 개체를 이용해서 DOM 개체로부터 텍스트만 분리하는 방법을 사용했었는데요. IE에 대한 의존성을 줄이기 위해 혹시나 싶어서 찾아보니 다음의 공개 소스가 있습니다.

Html Agility Pack
; http://htmlagilitypack.codeplex.com/

codeplex에 있으니 당연히 오픈소스이고 "Ms-PL" 라이선스이기 때문에 상용에도 사용할 수 있습니다.

다운로드하면 6개의 프로젝트가 있지만,

htmlagilitypack_1.png

실제로 필요한 것은 HtmlAgilityPack 프로젝트 하나이고, 그것을 이용해 텍스트를 추출하는 예제가 Html2TxtVS2008 프로젝트입니다.

따라서, 그냥 프로젝트 하나 만들고 HtmlAgilityPack을 참조 추가한 다음 Html2TxtVS2008 프로젝트에 구현된 HtmlToText 타입을 이용해 아래와 같이 코드를 만들어 주시면 웹 페이지에 포함된 텍스트만을 추출할 수 있습니다.

using System;
using System.IO;
using System.Net;
using System.Text;

namespace HtmlAgilityPack.Samples
{
    class Html2Xml
    {
        [STAThread]
        static void Main(string[] args)
        {
            // 아래의 WebClient 코드는 https://www.sysnet.pe.kr/2/0/1493 글을 참조
            WebClient wc = new WebClient();

            string url  = "http://ko.wikipedia.org/wiki/%EC%9D%B8%ED%84%B0%EB%84%B7";
            byte [] docBytes = wc.DownloadData(url);
            string encodeType = wc.ResponseHeaders["Content-Type"];

            string charsetKey = "charset";
            int pos = encodeType.IndexOf(charsetKey);

            Encoding currentEncoding = Encoding.Default;
            if (pos != -1)
            {
                pos = encodeType.IndexOf("=", pos + charsetKey.Length);
                if (pos != -1)
                {
                    string charset = encodeType.Substring(pos + 1);
                    currentEncoding = Encoding.GetEncoding(charset);
                }
            }

            string doc = currentEncoding.GetString(docBytes);

            HtmlToText htt = new HtmlToText();
            string innerText = htt.ConvertHtml(doc);

            Console.WriteLine(innerText);
        }
    }
}

첨부된 파일은 위의 예제가 동작하는 프로젝트입니다.




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]






[최초 등록일: ]
[최종 수정일: 8/18/2021]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 



2016-06-27 01시49분
HtmlAgilityPack.HtmlDocument.Load로 직접 로딩 시에 encoding 문제를 유의해야 합니다.

윈폼 html파싱에 대하여 질문
; https://social.msdn.microsoft.com/Forums/ko-KR/777a93d0-03dc-417f-b23e-3abc4c2019f5/-html-?forum=visualcsharpko
정성태
2023-06-23 10시08분
정성태

... 121  122  123  124  125  126  127  128  129  [130]  131  132  133  134  135  ...
NoWriterDateCnt.TitleFile(s)
1806정성태11/10/201425155.NET Framework: 477. SeCreateGlobalPrivilege 특권과 WCF NamedPipe
1805정성태11/5/201422019.NET Framework: 476. Visual Studio에서 Mono용 Profiler 개발 [3]파일 다운로드1
1804정성태11/5/201428271.NET Framework: 475. ETW(Event Tracing for Windows)를 C#에서 사용하는 방법 [9]파일 다운로드1
1803정성태11/4/201420371오류 유형: 261. Windows Server Backup 오류 - Error in backup of E:\$Extend\$RmMetadata\$TxfLog
1802정성태11/4/201422386오류 유형: 260. 이벤트 로그 - Windows Error Reporting / AEAPPINVW8
1801정성태11/4/201427619오류 유형: 259. 이벤트 로그 - Windows Error Reporting / IPX Assertion / KorIME.exe [1]
1800정성태11/4/201418374오류 유형: 258. 이벤트 로그 - Starting a SMART disk polling operation in Automatic mode.
1799정성태11/4/201423082오류 유형: 257. 이벤트 로그 - The WMI Performance Adapter service entered the stopped state.
1798정성태11/4/201431875오류 유형: 256. 이벤트 로그 - The WinHTTP Web Proxy Auto-Discovery Service service entered the stopped state. [1]
1797정성태11/4/201417596오류 유형: 255. 이벤트 로그 - The Adobe Flash Player Update Service service entered the stopped state.
1796정성태10/30/201424564개발 환경 구성: 249. Visual Studio 2013에서 Mono 컴파일하는 방법
1795정성태10/29/201427109개발 환경 구성: 248. Lync 2013 서버 설치 방법
1794정성태10/29/201422506개발 환경 구성: 247. "Microsoft Office 365 Enterprise E3" 서비스에 대한 간략 소개
1793정성태10/27/201423173.NET Framework: 474. C# - chromiumembedded 사용 - 두 번째 이야기 [2]파일 다운로드1
1792정성태10/27/201423302.NET Framework: 473. WebClient 객체에 쿠키(Cookie)를 사용하는 방법
1791정성태10/22/201423018VC++: 83. G++ - 템플릿 클래스의 iterator 코드 사용에서 발생하는 컴파일 오류 [5]
1790정성태10/22/201418545오류 유형: 254. NETLOGON Service is paused on [... AD Server...]
1789정성태10/22/201421223오류 유형: 253. 이벤트 로그 - The client-side extension could not remove user policy settings for '...'
1788정성태10/22/201423244VC++: 82. COM 프로그래밍에서 HRESULT 타입의 S_FALSE는 실패일까요? 성공일까요? [2]
1787정성태10/22/201431420오류 유형: 252. COM 개체 등록시 0x8002801C 오류가 발생한다면?
1786정성태10/22/201432752디버깅 기술: 65. 프로세스 비정상 종료 시 "Debug Diagnostic Tool"를 이용해 덤프를 남기는 방법 [3]파일 다운로드1
1785정성태10/22/201421947오류 유형: 251. 이벤트 로그 - Load control template file /_controltemplates/TaxonomyPicker.ascx failed [1]
1784정성태10/22/201430035.NET Framework: 472. C/C++과 C# 사이의 메모리 할당/해제 방법파일 다운로드1
1783정성태10/21/201423506VC++: 81. 프로그래밍에서 borrowing의 개념
1782정성태10/21/201420225오류 유형: 250. 이벤트 로그 - Application Server job failed for service instance Microsoft.Office.Server.Search.Administration.SearchServiceInstance
1781정성태10/21/201420708디버깅 기술: 64. new/delete의 짝이 맞는 경우에도 메모리 누수가 발생한다면?
... 121  122  123  124  125  126  127  128  129  [130]  131  132  133  134  135  ...