Microsoft MVP성태의 닷넷 이야기
글쓴 사람
홈페이지
첨부 파일
 

윈도우 환경에서 elasticsearch의 한글 블로그 검색 인덱스 구성

지난 글에서 elasticsearch의 간단한 사용법을 알아봤는데요,

윈도우 환경에서 curl.exe를 이용한 elasticsearch 6.x 기본 사용법
; https://www.sysnet.pe.kr/2/0/11663

이번에는 그것을 이용해 블로그 글을 검색하는 환경을 구성해 보겠습니다. 우선, 이전 글에 따라 한글 검색을 도와주는 플러그인은 설치해야 합니다.

윈도우 환경에서 elasticsearch의 한글 형태소 분석기 설치
; https://www.sysnet.pe.kr/2/0/11664

그 외에 블로그의 특성상 html 태그가 들어갈 것이므로 "openkoreantext-analyzer"를 기본으로 사용할 수는 없고, 다음과 같이 "html_strip" 필터를 추가로 구성해 analyzer를 만들어야 합니다.

{
    "settings": {
        "analysis": {
            "analyzer": {
                "blogtext_analyzer": {
                    "type": "custom",
                    "tokenizer": "openkoreantext-tokenizer",
                    "char_filter": [
                        "html_strip",
                        "openkoreantext-normalizer"
                    ],
                    "filter": [
                        "openkoreantext-stemmer",
                        "openkoreantext-redundant-filter"
                    ]
                }
            }
        }
    }
}

편의상 위의 내용을 settings.json 파일로 저장하고 다음과 같이 명령을 내리면 인덱스가 생성됩니다.

curl -XDELETE "http://localhost:9200/my_blog/"

curl -XPUT "http://localhost:9200/my_blog/" -H "Content-Type: application/json" -d "@settings.json"

또는 불편을 감수하고 다음과 같이 명령을 내리면 됩니다.

curl -XPUT "http://localhost:9200/my_blog/" -H "Content-Type: application/json" -d "{ \"settings\": { \"analysis\": { \"analyzer\": { \"blogtext_analyzer\": { \"type\": \"custom\", \"tokenizer\": \"openkoreantext-tokenizer\", \"char_filter\": [ \"html_strip\", \"openkoreantext-normalizer\" ], \"filter\": [ \"lowercase\", \"openkoreantext-stemmer\", \"openkoreantext-redundant-filter\" ] } } } } }"

사용자 정의 구성으로 blogtext_analyzer를 생성했으니, 이제 Type 정의에서 다음과 같이 적용할 수 있습니다.

{
    "articles": {
        "properties": {
            "writer": {
                "type": "text",
                "index": "false"
            },
            "wid": { "type": "integer" },
            "contents": {
                "type": "text",
                "analyzer": "blogtext_analyzer"
            },
            "registered": { "type": "date" }
        }
    }
}

위의 내용을 "articles.json" 파일로 저장하고 다음과 같이 명령을 내리거나,

curl -XPUT "http://localhost:9200/my_blog/articles/_mapping" -H "Content-Type: application/json" -d "@articles.json"

인라인으로 -d 옵션을 이용해 모두 써줘도 됩니다.

curl -XPUT "http://localhost:9200/my_blog/articles/_mapping" -H "Content-Type: application/json" -d "{ \"articles\" : { \"properties\" : {  \"writer\" : {\"type\" : \"text\", \"index\" : \"false\"}, \"wid\" : {\"type\" : \"integer\"}, \"contents\" : {\"type\" : \"text\", \"analyzer\": \"blogtext_analyzer\" }, \"registered\" : {\"type\" : \"date\"} } } }"

정상적으로 타입이 생성되었는지 Type 정의를 확인하고,

curl -XGET "http://localhost:9200/my_blog/articles/_mapping?pretty"

데이터 몇 개를 넣은 다음,

curl -XPUT "http://localhost:9200/my_blog/articles/1" -H "Content-Type: application/json" -d 
"{ 
    "name" : "tester", 
    "wid": 16, 
    "contents": "^gacutil.exe^를 실행해 ^<a href='dotnet'^>닷넷^</a^> DLL을 GAC에 등록하려 할 때 다음과 같은 식의 오류가 발생한다면?", 
    "registered":"2017-04-29T10:16:00" 
}"

curl -XPUT "http://localhost:9200/my_blog/articles/2" -H "Content-Type: application/json" -d 
"{ 
    "name" : "tester", 
    "wid": 17, 
    "contents": "한국어를 처리하는 예시입니닼ㅋㅋ", 
    "registered":"2017-04-29T10:16:00" 
}"

curl -XPUT "http://localhost:9200/my_blog/articles/3" -H "Content-Type: application/json" -d
"{ 
    "name" : "tester", 
    "wid": 17, 
    "contents": "테스트 이미지^<img alt=\\"test\\" ^>입니다.", 
    "registered":"2017-04-29T10:16:00" 
}"

curl -XPUT "http://localhost:9200/my_blog/articles/1" -H "Content-Type: application/json" -d "{ \"name\" : \"tester\", \"wid\": 16, \"contents\": \"^<b^>gacutil.exe^</b^>를 실행해 ^<a href='dotnet'^>닷넷^</a^> DLL을 GAC에 등록하려 할 때 다음과 같은 식의 오류가 발생한다면?\", \"registered\":\"2017-04-29T10:16:00\" }"

curl -XPUT "http://localhost:9200/my_blog/articles/2" -H "Content-Type: application/json" -d "{ \"name\" : \"tester\", \"wid\": 17, \"contents\": \"한국어를 처리하는 예시입니닼ㅋㅋ\", \"registered\":\"2017-04-29T10:16:00\" }"

curl -XPUT "http://localhost:9200/my_blog/articles/3" -H "Content-Type: application/json" -d "{ \"name\" : \"tester\", \"wid\": 18, \"contents\": \"테스트 이미지^<img alt=\\\"test\\\" ^>입니다.\", \"registered\":\"2017-04-29T10:16:00\" }"

검색 쿼리를 날려볼 수 있습니다.

curl -XGET "http://localhost:9200/my_blog/articles/_search" -H "Content-Type: application/json" -d "{ \"query\": { \"match\": { \"contents\": \"gacutil\" } } }"

{"took":1,"timed_out":false,"_shards":{"total":5,"successful":5,"skipped":0,"failed":0},"hits":{"total":1,"max_score":0.2876821,"hits":[{"_index":"my_blog","_type":"articles","_id":"1","_score":0.2876821,"_source":{ "name" : "tester", "wid": 16, "contents": "<b>gacutil.exe</b>를 실행해 <a href='dotnet'>닷넷</a> DLL을 GAC에 등록하려 할 때 다음과 같은 식의 오 류가 발생한다면?", "registered":"2017-04-29T10:16:00" }}]}}

html_strip 필터를 적용했기 때문에 html 태그 내에 있던 내용은 검색되지 않습니다.

curl -XGET "http://localhost:9200/my_blog/articles/_search" -H "Content-Type: application/json" -d "{ \"query\": { \"match\": { \"contents\": \"href\" } } }"

{"took":0,"timed_out":false,"_shards":{"total":5,"successful":5,"skipped":0,"failed":0},"hits":{"total":0,"max_score":null,"hits":[]}}

html_strip이 좋긴 한데, 아쉽게도 img의 alt 태그와 같은 내용에 대한 배려가 없군요. ^^

curl -XGET "http://localhost:9200/my_blog/articles/_search" -H "Content-Type: application/json" -d "{ \"query\": { \"match\": { \"contents\": \"test\" } } }"

{"took":0,"timed_out":false,"_shards":{"total":5,"successful":5,"skipped":0,"failed":0},"hits":{"total":0,"max_score":null,"hits":[]}}




curl.exe에서 HTML에 대한 인코딩이 잘못되면 다음과 같이 황당한 오류가 발생합니다.

c:\temp> curl -XPUT "http://localhost:9200/my_blog/articles/5" -H "Content-Type: application/json" -d "{ \"name\" : \"tester\", \"wid\": 17, \"address\": \"한국어를 <b>처리</b> 예시\", \"registered\":\"2017-04-29T10:16:00\" }"

The system cannot find the file specified.

왜냐하면, Windows Shell 명령어에서 <, > 문자는 Redirection 용도로 사용하기 때문입니다. 따라서 <, >와 같은 문자는 '^' 문자를 이용해 escape 처리를 해야 합니다.




참고로 openkoreantext-analyzer의 기본 설정은 "open-korean-text/elasticsearch-analysis-openkoreantext" 문서에 의하면 다음과 같다고 합니다.

"openkoreantext-analyzer": {
    "type": "custom",
    "tokenizer": "openkoreantext-tokenizer",
    "char_filter": [
        "openkoreantext-normalizer"
    ],
    "filter": [
        "openkoreantext-stemmer",
        "openkoreantext-redundant-filter",
        "classic",
        "length",
        "lowercase"
    ]
}

위의 구성에서 filter 부분의 순서가 의미가 있는데, 만약 lowercase를 다음과 같이 위로 설정해 놓으면,

"filter": [
    "lowercase"
    "openkoreantext-stemmer",
    "openkoreantext-redundant-filter",
]

다음과 같은 오류가 발생합니다.

{"error":{"root_cause":[{"type":"class_cast_exception","reason":"org.apache.lucene.analysis.LowerCaseFilter cannot be cast to org.apache.lucene.analysis.ko.KoreanTokenPrepareable"}],"type":"class_cast_exception","reason":"org.apache.lucene.analysis.LowerCaseFilter cannot be cast to org.apache.lucene.analysis.ko.KoreanTokenPrepareable"},"status":500}


만약 위와 같은 오류가 발생한다면 filter 항목의 순서를 조정할 필요가 있는 것입니다.




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]





[최초 등록일: ]
[최종 수정일: 8/24/2018 ]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer@outlook.com

비밀번호

댓글 쓴 사람
 




[1]  2  3  4  5  6  7  8  9  10  11  12  13  14  15  ...
NoWriterDateCnt.TitleFile(s)
12153정성태2/23/202043.NET Framework: 898. Trampoline을 이용한 후킹의 한계파일 다운로드1
12152정성태2/23/202040.NET Framework: 897. 실행 시에 메서드 가로채기 - CLR Injection: Runtime Method Replacer 개선 - 세 번째 이야기(Trampoline 후킹)파일 다운로드1
12151정성태2/23/202034.NET Framework: 896. C# - Win32 API를 Trampoline 기법을 이용해 C# 메서드로 가로채는 방법 - 두 번째 이야기 (원본 함수 호출)파일 다운로드1
12150정성태2/23/202049.NET Framework: 895. C# - Win32 API를 Trampoline 기법을 이용해 C# 메서드로 가로채는 방법파일 다운로드1
12149정성태2/20/202034.NET Framework: 894. eBEST C# XingAPI 래퍼 - 연속 조회 처리 방법
12148정성태2/23/2020101디버깅 기술: 163. x64 환경에서 구현하는 다양한 Trampoline 기법
12147정성태2/19/202089디버깅 기술: 162. x86/x64의 기계어 코드 최대 길이
12146정성태2/18/202066.NET Framework: 893. eBEST C# XingAPI 래퍼 - 로그인 처리파일 다운로드1
12145정성태2/18/202048.NET Framework: 892. eBEST C# XingAPI 래퍼 - Sqlite 지원 추가파일 다운로드1
12144정성태2/23/2020111.NET Framework: 891. 실행 시에 메서드 가로채기 - CLR Injection: Runtime Method Replacer 개선 - 두 번째 이야기파일 다운로드1
12143정성태2/13/202067.NET Framework: 890. 상황별 GetFunctionPointer 반환값 정리 - x64파일 다운로드1
12142정성태2/13/202099.NET Framework: 889. C# 코드로 접근하는 MethodDesc, MethodTable파일 다운로드1
12141정성태2/10/2020150.NET Framework: 888. C# - ASP.NET Core 웹 응용 프로그램의 출력 가로채기 [1]파일 다운로드1
12140정성태2/10/2020100.NET Framework: 887. C# - ASP.NET 웹 응용 프로그램의 출력 가로채기파일 다운로드1
12139정성태2/9/2020147.NET Framework: 886. C# - Console 응용 프로그램에서 UI 스레드 구현 방법
12138정성태2/9/2020128.NET Framework: 885. C# - 닷넷 응용 프로그램에서 Sqlite 사용파일 다운로드1
12137정성태2/9/202078오류 유형: 592. [AhnLab] 경고 - 디버거 실행을 탐지했습니다.
12136정성태2/6/202052Windows: 166. Windows + S(또는 Q)로 뜨는 작업 표시줄의 검색 바가 동작하지 않는 경우
12135정성태2/6/202087개발 환경 구성: 468. Nuget 패키지의 로컬 보관 폴더를 옮기는 방법
12134정성태2/5/2020144.NET Framework: 884. eBEST XingAPI의 C# 래퍼 버전 - XingAPINet Nuget 패키지파일 다운로드1
12133정성태2/7/2020140디버깅 기술: 161. Windbg 환경에서 확인해 본 .NET 메서드 JIT 컴파일 전과 후 - 두 번째 이야기
12132정성태2/20/2020263.NET Framework: 883. C#으로 구현하는 Win32 API 후킹(예: Sleep 호출 가로채기)파일 다운로드1
12131정성태1/27/2020205개발 환경 구성: 467. LocaleEmulator를 이용해 유니코드를 지원하지 않는(한글이 깨지는) 프로그램을 실행하는 방법
12130정성태1/26/2020116VS.NET IDE: 142. Visual Studio에서 windbg의 "Open Executable..."처럼 EXE를 직접 열어 디버깅을 시작하는 방법
12129정성태1/26/2020337.NET Framework: 882. C# - 키움 Open API+ 사용 시 Registry 등록 없이 KHOpenAPI.ocx 사용하는 방법
[1]  2  3  4  5  6  7  8  9  10  11  12  13  14  15  ...