Microsoft MVP성태의 닷넷 이야기
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
(연관된 글이 2개 있습니다.)

Html Agility Pack 소개 - 웹 문서에서 텍스트만 분리하는 방법

예전에는 Internet Explorer의 COM 개체를 이용해서 DOM 개체로부터 텍스트만 분리하는 방법을 사용했었는데요. IE에 대한 의존성을 줄이기 위해 혹시나 싶어서 찾아보니 다음의 공개 소스가 있습니다.

Html Agility Pack
; http://htmlagilitypack.codeplex.com/

codeplex에 있으니 당연히 오픈소스이고 "Ms-PL" 라이선스이기 때문에 상용에도 사용할 수 있습니다.

다운로드하면 6개의 프로젝트가 있지만,

htmlagilitypack_1.png

실제로 필요한 것은 HtmlAgilityPack 프로젝트 하나이고, 그것을 이용해 텍스트를 추출하는 예제가 Html2TxtVS2008 프로젝트입니다.

따라서, 그냥 프로젝트 하나 만들고 HtmlAgilityPack을 참조 추가한 다음 Html2TxtVS2008 프로젝트에 구현된 HtmlToText 타입을 이용해 아래와 같이 코드를 만들어 주시면 웹 페이지에 포함된 텍스트만을 추출할 수 있습니다.

using System;
using System.IO;
using System.Net;
using System.Text;

namespace HtmlAgilityPack.Samples
{
    class Html2Xml
    {
        [STAThread]
        static void Main(string[] args)
        {
            // 아래의 WebClient 코드는 https://www.sysnet.pe.kr/2/0/1493 글을 참조
            WebClient wc = new WebClient();

            string url  = "http://ko.wikipedia.org/wiki/%EC%9D%B8%ED%84%B0%EB%84%B7";
            byte [] docBytes = wc.DownloadData(url);
            string encodeType = wc.ResponseHeaders["Content-Type"];

            string charsetKey = "charset";
            int pos = encodeType.IndexOf(charsetKey);

            Encoding currentEncoding = Encoding.Default;
            if (pos != -1)
            {
                pos = encodeType.IndexOf("=", pos + charsetKey.Length);
                if (pos != -1)
                {
                    string charset = encodeType.Substring(pos + 1);
                    currentEncoding = Encoding.GetEncoding(charset);
                }
            }

            string doc = currentEncoding.GetString(docBytes);

            HtmlToText htt = new HtmlToText();
            string innerText = htt.ConvertHtml(doc);

            Console.WriteLine(innerText);
        }
    }
}

첨부된 파일은 위의 예제가 동작하는 프로젝트입니다.




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]






[최초 등록일: ]
[최종 수정일: 8/18/2021]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 



2016-06-27 01시49분
HtmlAgilityPack.HtmlDocument.Load로 직접 로딩 시에 encoding 문제를 유의해야 합니다.

윈폼 html파싱에 대하여 질문
; https://social.msdn.microsoft.com/Forums/ko-KR/777a93d0-03dc-417f-b23e-3abc4c2019f5/-html-?forum=visualcsharpko
정성태
2023-06-23 10시08분
정성태

... 16  17  18  19  20  21  [22]  23  24  25  26  27  28  29  30  ...
NoWriterDateCnt.TitleFile(s)
13098정성태7/13/20226469개발 환경 구성: 647. Azure - scale-out 상태의 App Service에서 특정 인스턴스에 요청을 보내는 방법 [1]
13097정성태7/12/20225831오류 유형: 817. Golang - binary.Read: invalid type int32
13096정성태7/8/20228727.NET Framework: 2030. C# 11 - UTF-8 문자열 리터럴
13095정성태7/7/20226795Windows: 208. AD 도메인에 참여하지 않은 컴퓨터에서 Kerberos 인증을 사용하는 방법
13094정성태7/6/20226569오류 유형: 816. Golang - "short write" 오류 원인
13093정성태7/5/20227421.NET Framework: 2029. C# - HttpWebRequest로 localhost 접속 시 2초 이상 지연
13092정성태7/3/20228375.NET Framework: 2028. C# - HttpWebRequest의 POST 동작 방식파일 다운로드1
13091정성태7/3/20227314.NET Framework: 2027. C# - IPv4, IPv6를 모두 지원하는 서버 소켓 생성 방법
13090정성태6/29/20226358오류 유형: 815. PyPI에 업로드한 패키지가 반영이 안 되는 경우
13089정성태6/28/20226832개발 환경 구성: 646. HOSTS 파일 변경 시 Edge 브라우저에 반영하는 방법
13088정성태6/27/20225795개발 환경 구성: 645. "Developer Command Prompt for VS 2022" 명령행 환경의 폰트를 바꾸는 방법
13087정성태6/23/20228852스크립트: 41. 파이썬 - FastAPI / uvicorn 호스팅 환경에서 asyncio 사용하는 방법 [1]
13086정성태6/22/20228299.NET Framework: 2026. C# 11 - 문자열 보간 개선 2가지파일 다운로드1
13085정성태6/22/20228394.NET Framework: 2025. C# 11 - 원시 문자열 리터럴(raw string literals)파일 다운로드1
13084정성태6/21/20226831개발 환경 구성: 644. Windows - 파이썬 2.7을 msi 설치 없이 구성하는 방법
13083정성태6/20/20227462.NET Framework: 2024. .NET 7에 도입된 GC의 메모리 해제에 대한 segment와 region의 차이점 [2]
13082정성태6/19/20226522.NET Framework: 2023. C# - Process의 I/O 사용량을 보여주는 GetProcessIoCounters Win32 API파일 다운로드1
13081정성태6/17/20226536.NET Framework: 2022. C# - .NET 7 Preview 5 신규 기능 - System.IO.Stream ReadExactly / ReadAtLeast파일 다운로드1
13080정성태6/17/20227219개발 환경 구성: 643. Visual Studio 2022 17.2 버전에서 C# 11 또는 .NET 7.0 preview 적용
13079정성태6/17/20224837오류 유형: 814. 파이썬 - Error: The file/path provided (...) does not appear to exist
13078정성태6/16/20227023.NET Framework: 2021. WPF - UI Thread와 Render Thread파일 다운로드1
13077정성태6/15/20227228스크립트: 40. 파이썬 - PostgreSQL 환경 구성
13075정성태6/15/20226205Linux: 50. Linux - apt와 apt-get의 차이 [2]
13074정성태6/13/20226532.NET Framework: 2020. C# - NTFS 파일에 사용자 정의 속성값 추가하는 방법파일 다운로드1
13073정성태6/12/20226811Windows: 207. Windows Server 2022에 도입된 WSL 2
13072정성태6/10/20227094Linux: 49. Linux - ls 명령어로 출력되는 디렉터리 색상 변경 방법
... 16  17  18  19  20  21  [22]  23  24  25  26  27  28  29  30  ...