Microsoft MVP성태의 닷넷 이야기
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
(연관된 글이 2개 있습니다.)

Html Agility Pack 소개 - 웹 문서에서 텍스트만 분리하는 방법

예전에는 Internet Explorer의 COM 개체를 이용해서 DOM 개체로부터 텍스트만 분리하는 방법을 사용했었는데요. IE에 대한 의존성을 줄이기 위해 혹시나 싶어서 찾아보니 다음의 공개 소스가 있습니다.

Html Agility Pack
; http://htmlagilitypack.codeplex.com/

codeplex에 있으니 당연히 오픈소스이고 "Ms-PL" 라이선스이기 때문에 상용에도 사용할 수 있습니다.

다운로드하면 6개의 프로젝트가 있지만,

htmlagilitypack_1.png

실제로 필요한 것은 HtmlAgilityPack 프로젝트 하나이고, 그것을 이용해 텍스트를 추출하는 예제가 Html2TxtVS2008 프로젝트입니다.

따라서, 그냥 프로젝트 하나 만들고 HtmlAgilityPack을 참조 추가한 다음 Html2TxtVS2008 프로젝트에 구현된 HtmlToText 타입을 이용해 아래와 같이 코드를 만들어 주시면 웹 페이지에 포함된 텍스트만을 추출할 수 있습니다.

using System;
using System.IO;
using System.Net;
using System.Text;

namespace HtmlAgilityPack.Samples
{
    class Html2Xml
    {
        [STAThread]
        static void Main(string[] args)
        {
            // 아래의 WebClient 코드는 https://www.sysnet.pe.kr/2/0/1493 글을 참조
            WebClient wc = new WebClient();

            string url  = "http://ko.wikipedia.org/wiki/%EC%9D%B8%ED%84%B0%EB%84%B7";
            byte [] docBytes = wc.DownloadData(url);
            string encodeType = wc.ResponseHeaders["Content-Type"];

            string charsetKey = "charset";
            int pos = encodeType.IndexOf(charsetKey);

            Encoding currentEncoding = Encoding.Default;
            if (pos != -1)
            {
                pos = encodeType.IndexOf("=", pos + charsetKey.Length);
                if (pos != -1)
                {
                    string charset = encodeType.Substring(pos + 1);
                    currentEncoding = Encoding.GetEncoding(charset);
                }
            }

            string doc = currentEncoding.GetString(docBytes);

            HtmlToText htt = new HtmlToText();
            string innerText = htt.ConvertHtml(doc);

            Console.WriteLine(innerText);
        }
    }
}

첨부된 파일은 위의 예제가 동작하는 프로젝트입니다.




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]






[최초 등록일: ]
[최종 수정일: 8/18/2021]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 



2016-06-27 01시49분
HtmlAgilityPack.HtmlDocument.Load로 직접 로딩 시에 encoding 문제를 유의해야 합니다.

윈폼 html파싱에 대하여 질문
; https://social.msdn.microsoft.com/Forums/ko-KR/777a93d0-03dc-417f-b23e-3abc4c2019f5/-html-?forum=visualcsharpko
정성태
2023-06-23 10시08분
정성태

... [166]  167  168  169  170  171  172  173  174  175  176  177  178  179  180  ...
NoWriterDateCnt.TitleFile(s)
894정성태7/25/201026403오류 유형: 100. Could not find the Database Engine startup handle. [1]
893정성태7/25/201027555오류 유형: 99. .NET 4.0 설치된 윈도우 7에서 SQL Server 2008 R2 설치 오류
892정성태7/9/201029267오류 유형: 98. 영문 윈도우에 한글 SQL Server 2008 R2 설치할 때 오류 [4]
891정성태7/8/201025160오류 유형: 97. MsiGetProductInfo failed to retrieve ProductVersion for package with Product Code = '{...}'. Error code: 1605. [2]
889정성태7/5/201026826.NET Framework: 179. Dictionary.Get(A) 대신 Dictionary.Get(A.GetHashCode())를 사용해서는 안 되는 이유 [1]
888정성태6/30/201024641오류 유형: 96. Hyper-V 연결 오류 - A connection will not be made because credentials may not be sent to the remote computer
887정성태6/23/201034531개발 환경 구성: 79. Hyper-V의 가상 머신에서 소리 재생 방법 [2]
886정성태6/23/201022673제니퍼 .NET: 14. ASMX, WCF 호출 모니터링 및 누수 확인
885정성태6/20/201024291개발 환경 구성: 78. COM+ 서버에서 COM+ 서버를 호출하는 방법
884정성태6/20/201027188제니퍼 .NET: 13. COM+ 서버 모니터링 [2]
883정성태6/18/201029120개발 환경 구성: 77. Appinit_Dlls로 구현한 환경 변수 설정 DLL [5]파일 다운로드1
882정성태6/17/201031883개발 환경 구성: 76. JKS(Java Key Store)에 저장된 인증서를 ActiveX 코드 서명에 사용하는 방법 [1]
881정성태6/14/201021334제니퍼 .NET: 12. COM+ 호출 모니터링 및 누수 확인
879정성태6/10/201023933제니퍼 .NET: 11. 소켓 모니터링 기능으로 본 ASP.NET의 소켓 풀링 기능 [1]
878정성태6/6/201023770제니퍼 .NET: 10. 소켓 모니터링 기능으로 본 WCF의 WSDualHttpBinding 성능 부하
877정성태5/31/201020488제니퍼 .NET: 9. 성능 관리 퀴즈 세 번째 문제 (닷넷 개발자 컨퍼런스)
876정성태5/31/201019917제니퍼 .NET: 8. 성능 관리 퀴즈 두 번째 문제 (닷넷 개발자 컨퍼런스) [2]
875정성태5/30/201021676제니퍼 .NET: 7. 성능 관리 퀴즈 첫 번째 문제 (닷넷 개발자 컨퍼런스)
873정성태5/19/201028524제니퍼 .NET: 6. 제니퍼를 위한 방화벽 설정
872정성태5/15/201027808제니퍼 .NET: 5. 제니퍼 서버 - NT 서비스로 구동시키는 방법
871정성태5/13/201034405VC++: 40. MSBuild를 이용한 VC++ 프로젝트 빌드파일 다운로드1
870정성태5/12/201025427제니퍼 .NET: 4. 닷넷 APM 솔루션 - 제니퍼 닷넷의 기능 요약 [2]
869정성태11/8/201926854오류 유형 : 95. WCF 인증서 설정 관련 오류 정리 [4]
865정성태5/5/201029153개발 환경 구성: 75. 인증서의 개인키를 담은 물리 파일 위치 알아내는 방법파일 다운로드1
864정성태5/4/201032965.NET Framework: 178. WCF - 사용자 정의 인증 구현 예제 [4]파일 다운로드1
863정성태5/4/201058904개발 환경 구성: 74. 인증서 관련(CER, PVK, SPC, PFX) 파일 만드는 방법 [1]파일 다운로드1
... [166]  167  168  169  170  171  172  173  174  175  176  177  178  179  180  ...