Microsoft MVP성태의 닷넷 이야기
오류 유형: 643. curl - json_parse_exception / Invalid UTF-8 start byte [링크 복사], [링크+제목 복사],
조회: 20360
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
 
(연관된 글이 1개 있습니다.)

curl - json_parse_exception / Invalid UTF-8 start byte

이상하군요, 전에 테스트할 때는,

윈도우 환경에서 elasticsearch의 한글 형태소 분석기 설치
; https://www.sysnet.pe.kr/2/0/11664

이런 문제를 겪지 않았었던 것 같은데, 어쨌든 윈도우 10에 기본 포함된 C:\Windows\System32\curl.exe로,

C:\temp> curl --version
curl 7.55.1 (Windows) libcurl/7.55.1 WinSSL
Release-Date: 2017-11-14, security patched: 2019-11-05
Protocols: dict file ftp ftps http https imap imaps pop3 pop3s smtp smtps telnet tftp
Features: AsynchDNS IPv6 Largefile SSPI Kerberos SPNEGO NTLM SSL

json 데이터에 한글을 포함하면 다음과 같이 "Invalid UTF-8 start byte ..." 오류가 발생합니다.

C:\temp> curl -X POST "http://localhost:9200/_analyze" -H "Content-Type: application/json" -d "{ \"tokenizer\": \"nori_tokenizer\", \"text\": \"논쟁이 주를 이룹니다.\" }"

{"error":{"root_cause":[{"type":"x_content_parse_exception","reason":"[1:42] [analyze_request] failed to parse field [text]"}],"type":"x_content_parse_exception","reason":"[1:42] [analyze_request] failed to parse field [text]","caused_by":{"type":"json_parse_exception","reason":"Invalid UTF-8 start byte 0xb3\n at [Source: (org.elasticsearch.common.bytes.AbstractBytesReference$MarkSupportingStreamInputWrapper); line: 1, column: 44]"}},"status":400}


반면 "Beta: Use Unicode UTF-8 for worldwide language support" 설정을 한 컴퓨터에서는 정상적으로 curl이 실행됩니다. 하지만 Region 설정이 재부팅까지 필요하고 그로 인해 여러 가지 다른 소소한 문제도 발생하기 때문에 다른 방법이 있으면 좋겠는데요, 혹시나 싶어 "chcp 65001" 명령어로 cmd.exe의 환경을 조정해봤지만 아쉽게도 해당 오류는 사라지지 않았습니다.

음... 어쩔 수 없군요, 그래서 그냥 curl에 전달할 문자열 중 ascii가 아닌 경우 인코딩을 해서 전달하도록 다음과 같이 프로그램을 하나 만들었습니다.

using System;
using System.Collections.Generic;
using System.Diagnostics;
using System.IO;
using System.Linq;

namespace ucurl
{
    class Program
    {
        static void Main(string[] args)
        {
            if (args.Length < 1)
            {
                return;
            }

            Console.OutputEncoding = System.Text.Encoding.UTF8;

            string cmd = args[0];
            string[] cmdArgs = null;

            if (Path.GetFileNameWithoutExtension(cmd).ToLower() == "curl")
            {
                cmdArgs = PreprocessArgs(args.Skip(1).ToArray());
            }
            else
            {
                cmd = "curl";
                cmdArgs = PreprocessArgs(args.ToArray());
            }
            
            ProcessStartInfo psi = new ProcessStartInfo();
            psi.FileName = cmd;
            psi.UseShellExecute = false;
            psi.Arguments = string.Join(" ", cmdArgs);

            Process proc = Process.Start(psi);

            proc.OutputDataReceived += Proc_OutputDataReceived;
            proc.ErrorDataReceived += Proc_ErrorDataReceived;

            proc.WaitForExit();
        }

        private static void Proc_ErrorDataReceived(object sender, DataReceivedEventArgs e)
        {
            Console.WriteLine(e.Data);
        }

        private static void Proc_OutputDataReceived(object sender, DataReceivedEventArgs e)
        {
            Console.WriteLine(e.Data);
        }

        private static string[] PreprocessArgs(string[] args)
        {
            List<string> list = new List<string>();

            foreach (string arg in args)
            {
                if (arg.IndexOf(' ') == -1)
                {
                    list.Add(arg);
                }
                else
                {
                    if (arg.IndexOf('"') == -1)
                    {
                        list.Add("\"" + arg + "\"");
                    }
                    else
                    {
                        List<string> argEncoded = new List<string>();

                        foreach (char ch in arg)
                        {
                            if (char.GetUnicodeCategory(ch) == System.Globalization.UnicodeCategory.OtherLetter)
                            {
                                argEncoded.Add("\\u" + ((int)ch).ToString("x4"));
                            }
                            else
                            {
                                argEncoded.Add(ch.ToString());
                            }
                        }

                        string text = string.Join("", argEncoded);
                        text = text.Replace("\"", "\\\"");

                        list.Add("\"" + text + "\"");
                    }
                }
            }

            return list.ToArray();
        }
    }
}

위의 내용을 빌드하는게 귀찮다면 다음의 경로에서 다운로드하셔도 됩니다.

stjeong / Utilities / ucurl
; https://github.com/stjeong/Utilities/tree/master/ucurl

ucurl.zip
; https://github.com/stjeong/Utilities/blob/master/Binaries/ucurl.zip

그다음, "curl"을 그냥 ("u" 글자만 앞에 붙여) "ucurl"로 바꿔 다음과 같이 실행하면 끝!

C:\temp> ucurl -X POST "http://localhost:9200/_analyze" -H "Content-Type: application/json" -d "{ \"tokenizer\": \"nori_tokenizer\", \"text\": \"논쟁이 주를 이룹니다.\" }"

{"tokens":[{"token":"논쟁","start_offset":0,"end_offset":2,"type":"word","position":0},{"token":"이","start_offset":2,"end_offset":3,"type":"word","position":1},{"token":"주","start_offset":4,"end_offset":5,"type":"word","position":2},{"token":"를","start_offset":5,"end_offset":6,"type":"word","position":3},{"token":"이루","start_offset":7,"end_offset":11,"type":"word","position":4},{"token":"ㅂ니다","start_offset":7,"end_offset":11,"type":"word","position":5}]}




내부적으로 "curl.exe"에 실행을 맡기므로 PATH나 현재 디렉터리에 curl.exe가 함께 있어야 합니다. 만약 그 외의 경우라면 다음과 같이 첫 번째 인자에 curl.exe의 경로를 지정해 실행할 수 있습니다.

ucurl c:\tools\curl.exe -X POST "http://localhost:9200/_analyze" -H "Content-Type: application/json" -d "{ \"tokenizer\": \"nori_tokenizer\", \"text\": \"논쟁이 주를 이룹니다.\" }"




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]






[최초 등록일: ]
[최종 수정일: 9/2/2020]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 




... 91  92  93  94  95  96  97  98  99  100  101  [102]  103  104  105  ...
NoWriterDateCnt.TitleFile(s)
11383정성태12/4/201723392디버깅 기술: 110. 비동기 코드 실행 중 예외로 인한 ASP.NET 프로세스 비정상 종료 현상 [1]
11382정성태12/4/201721924오류 유형: 436. System.Data.SqlClient.SqlException (0x80131904): Connection Timeout Expired 예외 발생 시 "[Pre-Login] initialization=48; handshake=1944;" 값의 의미
11381정성태11/30/201718414.NET Framework: 702. 한글이 포함된 바이트 배열을 나눈 경우 한글이 깨지지 않도록 다시 조합하는 방법(두 번째 이야기)파일 다운로드1
11380정성태11/30/201718440디버깅 기술: 109. windbg - (x64에서의 인자 값 추적을 이용한) Thread.Abort 시 대상이 되는 스레드를 식별하는 방법
11379정성태11/30/201719136오류 유형: 435. System.Web.HttpException - Session state has created a session id, but cannot save it because the response was already flushed by the application.
11378정성태11/29/201720615.NET Framework: 701. 한글이 포함된 바이트 배열을 나눈 경우 한글이 깨지지 않도록 다시 조합하는 방법 [1]파일 다운로드1
11377정성태11/29/201719876.NET Framework: 700. CommonOpenFileDialog 사용 시 사용자가 선택한 파일 목록을 구하는 방법 [3]파일 다운로드1
11376정성태11/28/201724269VS.NET IDE: 123. Visual Studio 편집기의 \r\n (crlf) 개행을 \n으로 폴더 단위로 설정하는 방법
11375정성태11/28/201719064오류 유형: 434. Visual Studio로 ASP.NET 디버깅 중 System.Web.HttpException - Could not load type 오류
11374정성태11/27/201724159사물인터넷: 14. 라즈베리 파이 - (윈도우의 NT 서비스처럼) 부팅 시 시작하는 프로그램 설정 [1]
11373정성태11/27/201723146오류 유형: 433. Raspberry Pi/Windows 다중 플랫폼 지원 컴파일 관련 오류 기록
11372정성태11/25/201726130사물인터넷: 13. 윈도우즈 사용자를 위한 라즈베리 파이 제로 W 모델을 설정하는 방법 [4]
11371정성태11/25/201719805오류 유형: 432. Hyper-V 가상 스위치 생성 시 Failed to connect Ethernet switch port 0x80070002 오류 발생
11370정성태11/25/201719816오류 유형: 431. Hyper-V의 Virtual Switch 생성 시 "External network" 목록에 특정 네트워크 어댑터 항목이 없는 경우
11369정성태11/25/201721777사물인터넷: 12. Raspberry Pi Zero(OTG)를 다른 컴퓨터에 연결해 가상 키보드 및 마우스로 쓰는 방법 (절대 좌표, 상대 좌표, 휠) [1]
11368정성태11/25/201727415.NET Framework: 699. UDP 브로드캐스트 주소 255.255.255.255와 192.168.0.255의 차이점과 이를 고려한 C# UDP 서버/클라이언트 예제 [2]파일 다운로드1
11367정성태11/25/201727486개발 환경 구성: 337. 윈도우 운영체제의 route 명령어 사용법
11366정성태11/25/201719134오류 유형: 430. 이벤트 로그 - Cryptographic Services failed while processing the OnIdentity() call in the System Writer Object.
11365정성태11/25/201721378오류 유형: 429. 이벤트 로그 - User Policy could not be updated successfully
11364정성태11/24/201723326사물인터넷: 11. Raspberry Pi Zero(OTG)를 다른 컴퓨터에 연결해 가상 마우스로 쓰는 방법 (절대 좌표) [2]
11363정성태11/23/201723336사물인터넷: 10. Raspberry Pi Zero(OTG)를 다른 컴퓨터에 연결해 가상 마우스 + 키보드로 쓰는 방법 (두 번째 이야기)
11362정성태11/22/201719743오류 유형: 428. 윈도우 업데이트 KB4048953 - 0x800705b4 [2]
11361정성태11/22/201722537오류 유형: 427. 이벤트 로그 - Filter Manager failed to attach to volume '\Device\HarddiskVolume??' 0xC03A001C
11360정성태11/22/201722384오류 유형: 426. 이벤트 로그 - The kernel power manager has initiated a shutdown transition.
11359정성태11/16/201721891오류 유형: 425. 윈도우 10 Version 1709 (OS Build 16299.64) 업그레이드 시 발생한 문제 2가지
11358정성태11/15/201726684사물인터넷: 9. Visual Studio 2017에서 Raspberry Pi C++ 응용 프로그램 제작 [1]
... 91  92  93  94  95  96  97  98  99  100  101  [102]  103  104  105  ...