Microsoft MVP성태의 닷넷 이야기
오류 유형: 643. curl - json_parse_exception / Invalid UTF-8 start byte [링크 복사], [링크+제목 복사],
조회: 20156
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
 
(연관된 글이 1개 있습니다.)

curl - json_parse_exception / Invalid UTF-8 start byte

이상하군요, 전에 테스트할 때는,

윈도우 환경에서 elasticsearch의 한글 형태소 분석기 설치
; https://www.sysnet.pe.kr/2/0/11664

이런 문제를 겪지 않았었던 것 같은데, 어쨌든 윈도우 10에 기본 포함된 C:\Windows\System32\curl.exe로,

C:\temp> curl --version
curl 7.55.1 (Windows) libcurl/7.55.1 WinSSL
Release-Date: 2017-11-14, security patched: 2019-11-05
Protocols: dict file ftp ftps http https imap imaps pop3 pop3s smtp smtps telnet tftp
Features: AsynchDNS IPv6 Largefile SSPI Kerberos SPNEGO NTLM SSL

json 데이터에 한글을 포함하면 다음과 같이 "Invalid UTF-8 start byte ..." 오류가 발생합니다.

C:\temp> curl -X POST "http://localhost:9200/_analyze" -H "Content-Type: application/json" -d "{ \"tokenizer\": \"nori_tokenizer\", \"text\": \"논쟁이 주를 이룹니다.\" }"

{"error":{"root_cause":[{"type":"x_content_parse_exception","reason":"[1:42] [analyze_request] failed to parse field [text]"}],"type":"x_content_parse_exception","reason":"[1:42] [analyze_request] failed to parse field [text]","caused_by":{"type":"json_parse_exception","reason":"Invalid UTF-8 start byte 0xb3\n at [Source: (org.elasticsearch.common.bytes.AbstractBytesReference$MarkSupportingStreamInputWrapper); line: 1, column: 44]"}},"status":400}


반면 "Beta: Use Unicode UTF-8 for worldwide language support" 설정을 한 컴퓨터에서는 정상적으로 curl이 실행됩니다. 하지만 Region 설정이 재부팅까지 필요하고 그로 인해 여러 가지 다른 소소한 문제도 발생하기 때문에 다른 방법이 있으면 좋겠는데요, 혹시나 싶어 "chcp 65001" 명령어로 cmd.exe의 환경을 조정해봤지만 아쉽게도 해당 오류는 사라지지 않았습니다.

음... 어쩔 수 없군요, 그래서 그냥 curl에 전달할 문자열 중 ascii가 아닌 경우 인코딩을 해서 전달하도록 다음과 같이 프로그램을 하나 만들었습니다.

using System;
using System.Collections.Generic;
using System.Diagnostics;
using System.IO;
using System.Linq;

namespace ucurl
{
    class Program
    {
        static void Main(string[] args)
        {
            if (args.Length < 1)
            {
                return;
            }

            Console.OutputEncoding = System.Text.Encoding.UTF8;

            string cmd = args[0];
            string[] cmdArgs = null;

            if (Path.GetFileNameWithoutExtension(cmd).ToLower() == "curl")
            {
                cmdArgs = PreprocessArgs(args.Skip(1).ToArray());
            }
            else
            {
                cmd = "curl";
                cmdArgs = PreprocessArgs(args.ToArray());
            }
            
            ProcessStartInfo psi = new ProcessStartInfo();
            psi.FileName = cmd;
            psi.UseShellExecute = false;
            psi.Arguments = string.Join(" ", cmdArgs);

            Process proc = Process.Start(psi);

            proc.OutputDataReceived += Proc_OutputDataReceived;
            proc.ErrorDataReceived += Proc_ErrorDataReceived;

            proc.WaitForExit();
        }

        private static void Proc_ErrorDataReceived(object sender, DataReceivedEventArgs e)
        {
            Console.WriteLine(e.Data);
        }

        private static void Proc_OutputDataReceived(object sender, DataReceivedEventArgs e)
        {
            Console.WriteLine(e.Data);
        }

        private static string[] PreprocessArgs(string[] args)
        {
            List<string> list = new List<string>();

            foreach (string arg in args)
            {
                if (arg.IndexOf(' ') == -1)
                {
                    list.Add(arg);
                }
                else
                {
                    if (arg.IndexOf('"') == -1)
                    {
                        list.Add("\"" + arg + "\"");
                    }
                    else
                    {
                        List<string> argEncoded = new List<string>();

                        foreach (char ch in arg)
                        {
                            if (char.GetUnicodeCategory(ch) == System.Globalization.UnicodeCategory.OtherLetter)
                            {
                                argEncoded.Add("\\u" + ((int)ch).ToString("x4"));
                            }
                            else
                            {
                                argEncoded.Add(ch.ToString());
                            }
                        }

                        string text = string.Join("", argEncoded);
                        text = text.Replace("\"", "\\\"");

                        list.Add("\"" + text + "\"");
                    }
                }
            }

            return list.ToArray();
        }
    }
}

위의 내용을 빌드하는게 귀찮다면 다음의 경로에서 다운로드하셔도 됩니다.

stjeong / Utilities / ucurl
; https://github.com/stjeong/Utilities/tree/master/ucurl

ucurl.zip
; https://github.com/stjeong/Utilities/blob/master/Binaries/ucurl.zip

그다음, "curl"을 그냥 ("u" 글자만 앞에 붙여) "ucurl"로 바꿔 다음과 같이 실행하면 끝!

C:\temp> ucurl -X POST "http://localhost:9200/_analyze" -H "Content-Type: application/json" -d "{ \"tokenizer\": \"nori_tokenizer\", \"text\": \"논쟁이 주를 이룹니다.\" }"

{"tokens":[{"token":"논쟁","start_offset":0,"end_offset":2,"type":"word","position":0},{"token":"이","start_offset":2,"end_offset":3,"type":"word","position":1},{"token":"주","start_offset":4,"end_offset":5,"type":"word","position":2},{"token":"를","start_offset":5,"end_offset":6,"type":"word","position":3},{"token":"이루","start_offset":7,"end_offset":11,"type":"word","position":4},{"token":"ㅂ니다","start_offset":7,"end_offset":11,"type":"word","position":5}]}




내부적으로 "curl.exe"에 실행을 맡기므로 PATH나 현재 디렉터리에 curl.exe가 함께 있어야 합니다. 만약 그 외의 경우라면 다음과 같이 첫 번째 인자에 curl.exe의 경로를 지정해 실행할 수 있습니다.

ucurl c:\tools\curl.exe -X POST "http://localhost:9200/_analyze" -H "Content-Type: application/json" -d "{ \"tokenizer\": \"nori_tokenizer\", \"text\": \"논쟁이 주를 이룹니다.\" }"




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]






[최초 등록일: ]
[최종 수정일: 9/2/2020]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 




... 76  77  78  79  80  81  82  83  [84]  85  86  87  88  89  90  ...
NoWriterDateCnt.TitleFile(s)
11833정성태3/4/201921026개발 환경 구성: 431. Visual Studio 2019 - CMake를 이용한 공유/실행(so/out) 리눅스 프로젝트 설정파일 다운로드1
11832정성태3/4/201916966오류 유형: 524. Visual Studio CMake - rsync: connection unexpectedly closed
11831정성태3/4/201916784오류 유형: 523. Visual Studio 2019 - 새 창으로 뜬 윈도우를 닫을 때 비정상 종료
11830정성태2/26/201916473오류 유형: 522. 이벤트 로그 - Error opening event log file State. Log will not be processed. Return code from OpenEventLog is 87.
11829정성태2/26/201918214개발 환경 구성: 430. 마이크로소프트의 CoreCLR 프로파일러 예제 빌드 방법 - 리눅스 환경 [1]
11828정성태2/26/201926089개발 환경 구성: 429. Component Services 관리자의 RuntimeBroker 설정이 2개 있는 경우 [8]
11827정성태2/26/201919037오류 유형: 521. Visual Studio - Could not start the 'rsync' command on the remote host, please install it using your system package manager.
11826정성태2/26/201919223오류 유형: 520. 우분투에 .NET Core SDK 설치 시 패키지 의존성 오류
11825정성태2/25/201924422개발 환경 구성: 428. Visual Studio 2019 - CMake를 이용한 리눅스 빌드 환경 설정 [1]
11824정성태2/25/201918857오류 유형: 519. The SNMP Service encountered an error while accessing the registry key SYSTEM\CurrentControlSet\Services\SNMP\Parameters\TrapConfiguration. [1]
11823정성태2/21/201920610오류 유형: 518. IIS 관리 콘솔이 뜨지 않는 문제
11822정성태2/20/201918885오류 유형: 517. docker에 설치한 MongoDB 서버로 연결이 안 되는 경우
11821정성태2/20/201919645오류 유형: 516. Visual Studio 2019 - This extension uses deprecated APIs and is at risk of not functioning in a future VS update. [1]
11820정성태2/20/201922710오류 유형: 515. 윈도우 10 1809 업데이트 후 "User Profiles Service" 1534 경고 발생
11819정성태2/20/201921999Windows: 158. 컴퓨터와 사용자의 SID(security identifier) 확인 방법
11818정성태2/20/201920029VS.NET IDE: 131. Visual Studio 2019 Preview의 닷넷 프로젝트 빌드가 20초 이상 걸리는 경우 [2]
11817정성태2/17/201916423오류 유형: 514. WinDbg Preview 실행 오류 - Error : DbgX.dll : WindowsDebugger.WindowsDebuggerException: Could not load dbgeng.dll
11816정성태2/17/201919813Windows: 157. 윈도우 스토어 앱(Microsoft Store App)을 명령행에서 직접 실행하는 방법
11815정성태2/14/201918072오류 유형: 513. Visual Studio 2019 - VSIX 설치 시 "The extension cannot be installed to this product due to prerequisites that cannot be resolved." 오류 발생
11814정성태2/12/201916916오류 유형: 512. VM(가상 머신)의 NT 서비스들이 자동 시작되지 않는 문제
11813정성태2/12/201918301.NET Framework: 809. C# - ("Save File Dialog" 등의) 대화 창에 확장 속성을 보이는 방법
11812정성태2/11/201915580오류 유형: 511. Windows Server 2003 VM 부팅 후 로그인 시점에 0xC0000005 BSOD 발생
11811정성태2/11/201920711오류 유형: 510. 서버 운영체제에 NVIDIA GeForce Experience 실행 시 wlanapi.dll 누락 문제
11810정성태2/11/201918474.NET Framework: 808. .NET Profiler - GAC 모듈에서 GAC 비-등록 모듈을 참조하는 경우의 문제
11809정성태2/11/201920583.NET Framework: 807. ClrMD를 이용해 메모리 덤프 파일로부터 특정 인스턴스를 참조하고 있는 소유자 확인
11808정성태2/8/201921913디버깅 기술: 123. windbg - 닷넷 응용 프로그램의 메모리 누수 분석
... 76  77  78  79  80  81  82  83  [84]  85  86  87  88  89  90  ...