성태의 닷넷 이야기
홈 주인
모아 놓은 자료
프로그래밍
질문/답변
사용자 관리
사용자
메뉴
아티클
외부 아티클
유용한 코드
온라인 기능
MathJax 입력기
최근 덧글
[정성태] VT sequences to "CONOUT$" vs. STD_O...
[정성태] NetCoreDbg is a managed code debugg...
[정성태] Evaluating tail call elimination in...
[정성태] What’s new in System.Text.Json in ....
[정성태] What's new in .NET 9: Cryptography ...
[정성태] 아... 제시해 주신 "https://akrzemi1.wordp...
[정성태] 다시 질문을 정리할 필요가 있을 것 같습니다. 제가 본문에...
[이승준] 완전히 잘못 짚었습니다. 댓글 지우고 싶네요. 검색을 해보...
[정성태] 우선 답글 감사합니다. ^^ 그런데, 사실 저 예제는 (g...
[이승준] 수정이 안되어서... byteArray는 BYTE* 타입입니다...
글쓰기
제목
이름
암호
전자우편
HTML
홈페이지
유형
제니퍼 .NET
닷넷
COM 개체 관련
스크립트
VC++
VS.NET IDE
Windows
Team Foundation Server
디버깅 기술
오류 유형
개발 환경 구성
웹
기타
Linux
Java
DDK
Math
Phone
Graphics
사물인터넷
부모글 보이기/감추기
내용
<div style='display: inline'> <h1 style='font-family: Malgun Gothic, Consolas; font-size: 20pt; color: #006699; text-align: center; font-weight: bold'>Html Agility Pack 소개 - 웹 문서에서 텍스트만 분리하는 방법</h1> <p> 예전에는 Internet Explorer의 COM 개체를 이용해서 DOM 개체로부터 텍스트만 분리하는 방법을 사용했었는데요. IE에 대한 의존성을 줄이기 위해 혹시나 싶어서 찾아보니 다음의 공개 소스가 있습니다.<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > Html Agility Pack ; <a target='tab' href='http://htmlagilitypack.codeplex.com/'>http://htmlagilitypack.codeplex.com/</a> </pre> <br /> codeplex에 있으니 당연히 오픈소스이고 "Ms-PL" 라이선스이기 때문에 상용에도 사용할 수 있습니다.<br /> <br /> 다운로드하면 6개의 프로젝트가 있지만,<br /> <br /> <img alt='htmlagilitypack_1.png' src='/SysWebRes/bbs/htmlagilitypack_1.png' /><br /> <br /> 실제로 필요한 것은 HtmlAgilityPack 프로젝트 하나이고, 그것을 이용해 텍스트를 추출하는 예제가 Html2TxtVS2008 프로젝트입니다.<br /> <br /> 따라서, 그냥 프로젝트 하나 만들고 HtmlAgilityPack을 참조 추가한 다음 Html2TxtVS2008 프로젝트에 구현된 HtmlToText 타입을 이용해 아래와 같이 코드를 만들어 주시면 웹 페이지에 포함된 텍스트만을 추출할 수 있습니다.<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > using System; using System.IO; using System.Net; using System.Text; namespace HtmlAgilityPack.Samples { class Html2Xml { [STAThread] static void Main(string[] args) { // 아래의 WebClient 코드는 <a target='tab' href='http://www.sysnet.pe.kr/2/0/1493'>http://www.sysnet.pe.kr/2/0/1493</a> 글을 참조 WebClient wc = new WebClient(); string url = "http://ko.wikipedia.org/wiki/%EC%9D%B8%ED%84%B0%EB%84%B7"; byte [] docBytes = wc.DownloadData(url); string encodeType = wc.ResponseHeaders["Content-Type"]; string charsetKey = "charset"; int pos = encodeType.IndexOf(charsetKey); Encoding currentEncoding = Encoding.Default; if (pos != -1) { pos = encodeType.IndexOf("=", pos + charsetKey.Length); if (pos != -1) { string charset = encodeType.Substring(pos + 1); currentEncoding = Encoding.GetEncoding(charset); } } string doc = currentEncoding.GetString(docBytes); <span style='color: blue; font-weight: bold'> HtmlToText htt = new HtmlToText(); string innerText = htt.ConvertHtml(doc); Console.WriteLine(innerText);</span> } } } </pre> <br /> <a target='tab' href='http://www.sysnet.pe.kr/bbs/DownloadAttachment.aspx?fid=790&boardid=331301885'>첨부된 파일은 위의 예제가 동작하는 프로젝트</a>입니다.<br /> </p><br /> <br /><hr /><span style='color: Maroon'>[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]</span> </div>
첨부파일
스팸 방지용 인증 번호
1131
(왼쪽의 숫자를 입력해야 합니다.)