Microsoft MVP성태의 닷넷 이야기
오류 유형: 643. curl - json_parse_exception / Invalid UTF-8 start byte [링크 복사], [링크+제목 복사],
조회: 12043
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
 

curl - json_parse_exception / Invalid UTF-8 start byte

이상하군요, 전에 테스트할 때는,

윈도우 환경에서 elasticsearch의 한글 형태소 분석기 설치
; https://www.sysnet.pe.kr/2/0/11664

이런 문제를 겪지 않았었던 것 같은데, 어쨌든 윈도우 10에 기본 포함된 C:\Windows\System32\curl.exe로,

C:\temp> curl --version
curl 7.55.1 (Windows) libcurl/7.55.1 WinSSL
Release-Date: 2017-11-14, security patched: 2019-11-05
Protocols: dict file ftp ftps http https imap imaps pop3 pop3s smtp smtps telnet tftp
Features: AsynchDNS IPv6 Largefile SSPI Kerberos SPNEGO NTLM SSL

json 데이터에 한글을 포함하면 다음과 같이 "Invalid UTF-8 start byte ..." 오류가 발생합니다.

C:\temp> curl -X POST "http://localhost:9200/_analyze" -H "Content-Type: application/json" -d "{ \"tokenizer\": \"nori_tokenizer\", \"text\": \"논쟁이 주를 이룹니다.\" }"

{"error":{"root_cause":[{"type":"x_content_parse_exception","reason":"[1:42] [analyze_request] failed to parse field [text]"}],"type":"x_content_parse_exception","reason":"[1:42] [analyze_request] failed to parse field [text]","caused_by":{"type":"json_parse_exception","reason":"Invalid UTF-8 start byte 0xb3\n at [Source: (org.elasticsearch.common.bytes.AbstractBytesReference$MarkSupportingStreamInputWrapper); line: 1, column: 44]"}},"status":400}


반면 "Beta: Use Unicode UTF-8 for worldwide language support" 설정을 한 컴퓨터에서는 정상적으로 curl이 실행됩니다. 하지만 Region 설정이 재부팅까지 필요하고 그로 인해 여러 가지 다른 소소한 문제도 발생하기 때문에 다른 방법이 있으면 좋겠는데요, 혹시나 싶어 "chcp 65001" 명령어로 cmd.exe의 환경을 조정해봤지만 아쉽게도 해당 오류는 사라지지 않았습니다.

음... 어쩔 수 없군요, 그래서 그냥 curl에 전달할 문자열 중 ascii가 아닌 경우 인코딩을 해서 전달하도록 다음과 같이 프로그램을 하나 만들었습니다.

using System;
using System.Collections.Generic;
using System.Diagnostics;
using System.IO;
using System.Linq;

namespace ucurl
{
    class Program
    {
        static void Main(string[] args)
        {
            if (args.Length < 1)
            {
                return;
            }

            Console.OutputEncoding = System.Text.Encoding.UTF8;

            string cmd = args[0];
            string[] cmdArgs = null;

            if (Path.GetFileNameWithoutExtension(cmd).ToLower() == "curl")
            {
                cmdArgs = PreprocessArgs(args.Skip(1).ToArray());
            }
            else
            {
                cmd = "curl";
                cmdArgs = PreprocessArgs(args.ToArray());
            }
            
            ProcessStartInfo psi = new ProcessStartInfo();
            psi.FileName = cmd;
            psi.UseShellExecute = false;
            psi.Arguments = string.Join(" ", cmdArgs);

            Process proc = Process.Start(psi);

            proc.OutputDataReceived += Proc_OutputDataReceived;
            proc.ErrorDataReceived += Proc_ErrorDataReceived;

            proc.WaitForExit();
        }

        private static void Proc_ErrorDataReceived(object sender, DataReceivedEventArgs e)
        {
            Console.WriteLine(e.Data);
        }

        private static void Proc_OutputDataReceived(object sender, DataReceivedEventArgs e)
        {
            Console.WriteLine(e.Data);
        }

        private static string[] PreprocessArgs(string[] args)
        {
            List<string> list = new List<string>();

            foreach (string arg in args)
            {
                if (arg.IndexOf(' ') == -1)
                {
                    list.Add(arg);
                }
                else
                {
                    if (arg.IndexOf('"') == -1)
                    {
                        list.Add("\"" + arg + "\"");
                    }
                    else
                    {
                        List<string> argEncoded = new List<string>();

                        foreach (char ch in arg)
                        {
                            if (char.GetUnicodeCategory(ch) == System.Globalization.UnicodeCategory.OtherLetter)
                            {
                                argEncoded.Add("\\u" + ((int)ch).ToString("x4"));
                            }
                            else
                            {
                                argEncoded.Add(ch.ToString());
                            }
                        }

                        string text = string.Join("", argEncoded);
                        text = text.Replace("\"", "\\\"");

                        list.Add("\"" + text + "\"");
                    }
                }
            }

            return list.ToArray();
        }
    }
}

위의 내용을 빌드하는게 귀찮다면 다음의 경로에서 다운로드하셔도 됩니다.

stjeong / Utilities / ucurl
; https://github.com/stjeong/Utilities/tree/master/ucurl

ucurl.zip
; https://github.com/stjeong/Utilities/blob/master/Binaries/ucurl.zip

그다음, "curl"을 그냥 ("u" 글자만 앞에 붙여) "ucurl"로 바꿔 다음과 같이 실행하면 끝!

C:\temp> ucurl -X POST "http://localhost:9200/_analyze" -H "Content-Type: application/json" -d "{ \"tokenizer\": \"nori_tokenizer\", \"text\": \"논쟁이 주를 이룹니다.\" }"

{"tokens":[{"token":"논쟁","start_offset":0,"end_offset":2,"type":"word","position":0},{"token":"이","start_offset":2,"end_offset":3,"type":"word","position":1},{"token":"주","start_offset":4,"end_offset":5,"type":"word","position":2},{"token":"를","start_offset":5,"end_offset":6,"type":"word","position":3},{"token":"이루","start_offset":7,"end_offset":11,"type":"word","position":4},{"token":"ㅂ니다","start_offset":7,"end_offset":11,"type":"word","position":5}]}




내부적으로 "curl.exe"에 실행을 맡기므로 PATH나 현재 디렉터리에 curl.exe가 함께 있어야 합니다. 만약 그 외의 경우라면 다음과 같이 첫 번째 인자에 curl.exe의 경로를 지정해 실행할 수 있습니다.

ucurl c:\tools\curl.exe -X POST "http://localhost:9200/_analyze" -H "Content-Type: application/json" -d "{ \"tokenizer\": \"nori_tokenizer\", \"text\": \"논쟁이 주를 이룹니다.\" }"




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]







[최초 등록일: ]
[최종 수정일: 9/2/2020]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 




... 16  17  18  19  20  21  22  23  [24]  25  26  27  28  29  30  ...
NoWriterDateCnt.TitleFile(s)
13031정성태4/15/20226819.NET Framework: 1194. C# - IdealProcessor와 ProcessorAffinity의 차이점
13030정성태4/15/20226504오류 유형: 804. 정규 표현식 오류 - Quantifier {x,y} following nothing.
13029정성태4/14/20226909Windows: 203. iisreset 후에도 이전에 설정한 전역 환경 변수가 w3wp.exe에 적용되는 문제
13028정성태4/13/20226818.NET Framework: 1193. (appsettings.json처럼) web.config의 Debug/Release에 따른 설정 적용
13027정성태4/12/20227109.NET Framework: 1192. C# - 환경 변수의 변화를 알리는 WM_SETTINGCHANGE Win32 메시지 사용법파일 다운로드1
13026정성태4/11/20228634.NET Framework: 1191. C 언어로 작성된 FFmpeg Examples의 C# 포팅 전체 소스 코드 [3]
13025정성태4/11/20227977.NET Framework: 1190. C# - ffmpeg(FFmpeg.AutoGen)를 이용한 vaapi_encode.c, vaapi_transcode.c 예제 포팅
13024정성태4/7/20226468.NET Framework: 1189. C# - 런타임 환경에 따라 달라진 AppDomain.GetCurrentThreadId 메서드
13023정성태4/6/20226770.NET Framework: 1188. C# - ffmpeg(FFmpeg.AutoGen)를 이용한 transcoding.c 예제 포팅 [3]
13022정성태3/31/20226673Windows: 202. 윈도우 11 업그레이드 - "PC Health Check"를 통과했지만 여전히 업그레이드가 안 되는 경우 해결책
13021정성태3/31/20226844Windows: 201. Windows - INF 파일을 이용한 장치 제거 방법
13020정성태3/30/20226583.NET Framework: 1187. RDP 접속 시 WPF UserControl의 Unloaded 이벤트 발생파일 다운로드1
13019정성태3/30/20226578.NET Framework: 1186. Win32 Message를 Code로부터 메시지 이름 자체를 구하고 싶다면?파일 다운로드1
13018정성태3/29/20227117.NET Framework: 1185. C# - Unsafe.AsPointer가 반환한 포인터는 pinning 상태일까요? [5]
13017정성태3/28/20226919.NET Framework: 1184. C# - GC Heap에 위치한 참조 개체의 주소를 알아내는 방법 - 두 번째 이야기 [3]
13016정성태3/27/20227787.NET Framework: 1183. C# 11에 추가된 ref 필드의 (우회) 구현 방법파일 다운로드1
13015정성태3/26/20229126.NET Framework: 1182. C# 11 - ref struct에 ref 필드를 허용 [1]
13014정성태3/23/20227702VC++: 155. CComPtr/CComQIPtr과 Conformance mode 옵션의 충돌 [1]
13013정성태3/22/20226030개발 환경 구성: 641. WSL 우분투 인스턴스에 파이썬 2.7 개발 환경 구성하는 방법
13012정성태3/21/20225366오류 유형: 803. C# - Local '...' or its members cannot have their address taken and be used inside an anonymous method or lambda expression
13011정성태3/21/20226847오류 유형: 802. 윈도우 운영체제에서 웹캠 카메라 인식이 안 되는 경우
13010정성태3/21/20225773오류 유형: 801. Oracle.ManagedDataAccess.Core - GetTypes 호출 시 "Could not load file or assembly 'System.DirectoryServices.Protocols...'" 오류
13009정성태3/20/20227390개발 환경 구성: 640. docker - ibmcom/db2 컨테이너 실행
13008정성태3/19/20226677VS.NET IDE: 176. 비주얼 스튜디오 - 솔루션 탐색기에서 프로젝트를 선택할 때 csproj 파일이 열리지 않도록 만드는 방법
13007정성태3/18/20226261.NET Framework: 1181. C# - Oracle.ManagedDataAccess의 Pool 및 그것의 연결 개체 수를 알아내는 방법파일 다운로드1
13006정성태3/17/20227338.NET Framework: 1180. C# - ffmpeg(FFmpeg.AutoGen)를 이용한 remuxing.c 예제 포팅
... 16  17  18  19  20  21  22  23  [24]  25  26  27  28  29  30  ...