성태의 닷넷 이야기
홈 주인
모아 놓은 자료
프로그래밍
질문/답변
사용자 관리
사용자
메뉴
아티클
외부 아티클
유용한 코드
온라인 기능
MathJax 입력기
최근 덧글
[정성태] Working with Rust Libraries from C#...
[정성태] Detecting blocking calls using asyn...
[정성태] 아쉽게도, 커뮤니티는 아니고 개인 블로그입니다. ^^
[정성태] 질문이 잘 이해가 안 됩니다. 우선, 해당 소스코드에서 ILis...
[양승조
] var대신 dinamic으로 선언해서 해결은 했습니다. 맞는 해...
[양승조
] 또 막혔습니다. ㅠㅠ var list = props[i].Ge...
[양승조
] 아. 감사합니다. 어제는 안됐던것 같은데....정신을 차려야겠네...
[정성태] "props[i].GetValue(props[i])" 코드에서 ...
[정성태] 저렇게 조각 코드 말고, 실제로 재현이 되는 예제 프로젝트를 압...
[정성태] Modules 창(Ctrl+Shift+U)을 띄워서, 해당 Op...
글쓰기
제목
이름
암호
전자우편
HTML
홈페이지
유형
제니퍼 .NET
닷넷
COM 개체 관련
스크립트
VC++
VS.NET IDE
Windows
Team Foundation Server
디버깅 기술
오류 유형
개발 환경 구성
웹
기타
Linux
Java
DDK
Math
Phone
Graphics
사물인터넷
부모글 보이기/감추기
내용
<div style='display: inline'> <h1 style='font-family: Malgun Gothic, Consolas; font-size: 20pt; color: #006699; text-align: center; font-weight: bold'>curl - json_parse_exception / Invalid UTF-8 start byte</h1> <p> 이상하군요, 전에 테스트할 때는,<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > 윈도우 환경에서 elasticsearch의 한글 형태소 분석기 설치 ; <a target='tab' href='https://www.sysnet.pe.kr/2/0/11664'>https://www.sysnet.pe.kr/2/0/11664</a> </pre> <br /> 이런 문제를 겪지 않았었던 것 같은데, 어쨌든 윈도우 10에 기본 포함된 C:\Windows\System32\curl.exe로,<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > C:\temp> <span style='color: blue; font-weight: bold'>curl --version</span> curl 7.55.1 (Windows) libcurl/7.55.1 WinSSL Release-Date: 2017-11-14, security patched: 2019-11-05 Protocols: dict file ftp ftps http https imap imaps pop3 pop3s smtp smtps telnet tftp Features: AsynchDNS IPv6 Largefile SSPI Kerberos SPNEGO NTLM SSL </pre> <br /> json 데이터에 한글을 포함하면 다음과 같이 "Invalid UTF-8 start byte ..." 오류가 발생합니다.<br /> <br /> <div style='BACKGROUND-COLOR: #ccffcc; padding: 10px 10px 5px 10px; MARGIN: 0px 10px 10px 10px; FONT-FAMILY: Malgun Gothic, Consolas, Verdana; COLOR: #005555'> C:\temp> <span style='color: blue; font-weight: bold'>curl -X POST "http://localhost:9200/_analyze" -H "Content-Type: application/json" -d "{ \"tokenizer\": \"nori_tokenizer\", \"text\": \"논쟁이 주를 이룹니다.\" }"</span><br /><br /> {"error":{"root_cause":[{"type":"x_content_parse_exception","reason":"[1:42] [analyze_request] failed to parse field [text]"}],"type":"x_content_parse_exception","reason":"[1:42] [analyze_request] failed to parse field [text]","caused_by":{"type":"json_parse_exception","reason":<span style='color: blue; font-weight: bold'>"Invalid UTF-8 start byte 0xb3\n at [Source: (org.elasticsearch.common.bytes.AbstractBytesReference$MarkSupportingStreamInputWrapper); line: 1, column: 44]"</span>}},"status":400} </div><br /> <br /> 반면 <a target='tab' href='https://www.sysnet.pe.kr/2/0/11559#region_utf8'>"Beta: Use Unicode UTF-8 for worldwide language support"</a> 설정을 한 컴퓨터에서는 정상적으로 curl이 실행됩니다. 하지만 Region 설정이 재부팅까지 필요하고 그로 인해 여러 가지 다른 소소한 문제도 발생하기 때문에 다른 방법이 있으면 좋겠는데요, 혹시나 싶어 "chcp 65001" 명령어로 cmd.exe의 환경을 조정해봤지만 아쉽게도 해당 오류는 사라지지 않았습니다.<br /> <br /> 음... 어쩔 수 없군요, 그래서 그냥 curl에 전달할 문자열 중 ascii가 아닌 경우 인코딩을 해서 전달하도록 다음과 같이 프로그램을 하나 만들었습니다.<br /> <br /> <pre style='height: 400px; margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > using System; using System.Collections.Generic; using System.Diagnostics; using System.IO; using System.Linq; namespace ucurl { class Program { static void Main(string[] args) { if (args.Length < 1) { return; } Console.OutputEncoding = System.Text.Encoding.UTF8; string cmd = args[0]; string[] cmdArgs = null; if (Path.GetFileNameWithoutExtension(cmd).ToLower() == "curl") { cmdArgs = PreprocessArgs(args.Skip(1).ToArray()); } else { cmd = "curl"; cmdArgs = PreprocessArgs(args.ToArray()); } ProcessStartInfo psi = new ProcessStartInfo(); psi.FileName = cmd; psi.UseShellExecute = false; psi.Arguments = string.Join(" ", cmdArgs); Process proc = Process.Start(psi); proc.OutputDataReceived += Proc_OutputDataReceived; proc.ErrorDataReceived += Proc_ErrorDataReceived; proc.WaitForExit(); } private static void Proc_ErrorDataReceived(object sender, DataReceivedEventArgs e) { Console.WriteLine(e.Data); } private static void Proc_OutputDataReceived(object sender, DataReceivedEventArgs e) { Console.WriteLine(e.Data); } private static string[] PreprocessArgs(string[] args) { List<string> list = new List<string>(); foreach (string arg in args) { if (arg.IndexOf(' ') == -1) { list.Add(arg); } else { if (arg.IndexOf('"') == -1) { list.Add("\"" + arg + "\""); } else { List<string> argEncoded = new List<string>(); foreach (char ch in arg) { if (char.GetUnicodeCategory(ch) == System.Globalization.UnicodeCategory.OtherLetter) { argEncoded.Add("\\u" + ((int)ch).ToString("x4")); } else { argEncoded.Add(ch.ToString()); } } string text = string.Join("", argEncoded); text = text.Replace("\"", "\\\""); list.Add("\"" + text + "\""); } } } return list.ToArray(); } } } </pre> <br /> 위의 내용을 빌드하는게 귀찮다면 다음의 경로에서 다운로드하셔도 됩니다.<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > stjeong / Utilities / ucurl ; <a target='tab' href='https://github.com/stjeong/Utilities/tree/master/ucurl'>https://github.com/stjeong/Utilities/tree/master/ucurl</a> ucurl.zip ; <a target='tab' href='https://github.com/stjeong/Utilities/blob/master/Binaries/ucurl.zip'>https://github.com/stjeong/Utilities/blob/master/Binaries/ucurl.zip</a> </pre> <br /> 그다음, "curl"을 그냥 ("u" 글자만 앞에 붙여) "ucurl"로 바꿔 다음과 같이 실행하면 끝!<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > C:\temp> <span style='color: blue; font-weight: bold'>ucurl</span> -X POST "http://localhost:9200/_analyze" -H "Content-Type: application/json" -d "{ \"tokenizer\": \"nori_tokenizer\", \"text\": \"논쟁이 주를 이룹니다.\" }" {"tokens":[{"token":"논쟁","start_offset":0,"end_offset":2,"type":"word","position":0},{"token":"이","start_offset":2,"end_offset":3,"type":"word","position":1},{"token":"주","start_offset":4,"end_offset":5,"type":"word","position":2},{"token":"를","start_offset":5,"end_offset":6,"type":"word","position":3},{"token":"이루","start_offset":7,"end_offset":11,"type":"word","position":4},{"token":"ㅂ니다","start_offset":7,"end_offset":11,"type":"word","position":5}]} </pre> <br /> <hr style='width: 50%' /><br /> <br /> 내부적으로 "curl.exe"에 실행을 맡기므로 PATH나 현재 디렉터리에 curl.exe가 함께 있어야 합니다. 만약 그 외의 경우라면 다음과 같이 첫 번째 인자에 curl.exe의 경로를 지정해 실행할 수 있습니다.<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > <span style='color: blue; font-weight: bold'>ucurl c:\tools\curl.exe</span> -X POST "http://localhost:9200/_analyze" -H "Content-Type: application/json" -d "{ \"tokenizer\": \"nori_tokenizer\", \"text\": \"논쟁이 주를 이룹니다.\" }" </pre> </p><br /> <br /><hr /><span style='color: Maroon'>[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]</span> </div>
첨부파일
스팸 방지용 인증 번호
7163
(왼쪽의 숫자를 입력해야 합니다.)