성태의 닷넷 이야기
홈 주인
모아 놓은 자료
프로그래밍
질문/답변
사용자 관리
사용자
메뉴
아티클
외부 아티클
유용한 코드
온라인 기능
MathJax 입력기
최근 덧글
[정성태] Java - How to use the Foreign Funct...
[정성태] 제가 큰 실수를 했군요. ^^; Delegate를 통한 Bein...
[정성태] Working with Rust Libraries from C#...
[정성태] Detecting blocking calls using asyn...
[정성태] 아쉽게도, 커뮤니티는 아니고 개인 블로그입니다. ^^
[정성태] 질문이 잘 이해가 안 됩니다. 우선, 해당 소스코드에서 ILis...
[양승조
] var대신 dinamic으로 선언해서 해결은 했습니다. 맞는 해...
[양승조
] 또 막혔습니다. ㅠㅠ var list = props[i].Ge...
[양승조
] 아. 감사합니다. 어제는 안됐던것 같은데....정신을 차려야겠네...
[정성태] "props[i].GetValue(props[i])" 코드에서 ...
글쓰기
제목
이름
암호
전자우편
HTML
홈페이지
유형
제니퍼 .NET
닷넷
COM 개체 관련
스크립트
VC++
VS.NET IDE
Windows
Team Foundation Server
디버깅 기술
오류 유형
개발 환경 구성
웹
기타
Linux
Java
DDK
Math
Phone
Graphics
사물인터넷
부모글 보이기/감추기
내용
<div style='display: inline'> <h1 style='font-family: Malgun Gothic, Consolas; font-size: 20pt; color: #006699; text-align: center; font-weight: bold'>Encoding 타입의 대체(fallback) 메카니즘</h1> <p> 이번 글은 다음의 질문에 대한 답변입니다.<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > ksc5601에서 지원하지않는 확장문자 찾는방법 ; <a target='tab' href='http://www.sysnet.pe.kr/3/0/1136'>http://www.sysnet.pe.kr/3/0/1136</a> </pre> <br /> 사실, "찾는 방법"까지는 설명할 수 없고 이런 기능을 하도록 BCL의 기능을 하나 이용해 볼 텐데요.<br /> <br /> 일단, 문제를 간략화 시켜 정리해 보면 다음과 같습니다.<br /> <br /> <ul> <li>유니코드 데이터를 읽어서 ks_c_5601-1987로 변환.</li> <li>이 과정에서 ks_c_5601-1987에서 표현할 수 없는 유니코드 문자는 원하는 문자로 대체</li> </ul> <br /> 그런데, Java를 언급하는 것으로 보아 실제로 사용된 인코딩 방식은 윈도우 기준으로 보면 "ks_c_5601-1987"이 아니라 "euc-kr"이 아닌가 싶습니다. 전에도 아래의 글을 통해 한번 언급했지만,<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > 유니코드와 한글 - 유니코드와 닷넷을 이용한 한글 처리 ; <a target='tab' href='http://www.sysnet.pe.kr/2/0/1294'>http://www.sysnet.pe.kr/2/0/1294</a> </pre> <br /> "샾"이라는 문자는 euc-kr 인코딩에서 표현이 안되는 것이지, ks_c_5601-1987에는 해당 단어가 표현가능합니다. (자바에서는 euc-kr이 ks_c_5601-1987로 사용되는 것으로 알고 있습니다.)<br /> <br /> 이를 감안해서, 이후로는 euc-kr로 두고 설명을 하겠습니다.<br /> <br /> <hr style='width: 50%' /><br /> <br /> 자, 그럼 코드로 표현해 볼까요? ^^<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > static void Main(string[] args) { // 샾: 0xC0FE // 유니코드 C000~CFFF // ; <a target='tab' href='http://ko.wikipedia.org/wiki/%EC%9C%A0%EB%8B%88%EC%BD%94%EB%93%9C_C000~CFFF'>http://ko.wikipedia.org/wiki/%EC%9C%A0%EB%8B%88%EC%BD%94%EB%93%9C_C000~CFFF</a> // Little-endian 유니 코드 // 클라이언트로부터 입력된 데이터가 unicodeBuffer에 있다고 가정. byte[] unicodeBuffer = Encoding.Unicode.GetBytes("샾"); // 전달받은 유니코드 인코딩된 데이터를 다시 디코딩 string orgText = Encoding.Unicode.GetString(unicodeBuffer); // 복원된 데이터를 다시 euc-kr로 인코딩 Encoding eucEncode = Encoding.GetEncoding("euc-kr"); byte [] eucBuffer = eucEncode.GetBytes(orgText); string target = eucEncode.GetString(eucBuffer); Console.WriteLine(target); } </pre> <br /> 위의 코드를 실행했을 때 화면에는 "?" 글자만 찍힙니다. 유니코드로는 표현 가능한 "샾" 글자가 euc-kr 인코딩에는 없기 때문입니다.<br /> <br /> 닷넷 BCL의 Encoding 타입은 변환되지 않는 글자에 대해 기본적으로 '?'로 치환합니다. 물론, '?' 기본문자를 바꾸는 것도 가능한데 이를 위해 GetEncoding 메소드에 다음의 2가지 인자를 넣어주어야 합니다.<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > Encoding eucEncode = Encoding.GetEncoding("euc-kr", <span style='color: blue; font-weight: bold'>new EncoderReplacementFallback("*"), new DecoderReplacementFallback("*")</span>); </pre> <br /> 이렇게 변경하고 다시 실행해 보면, "샾" 글자가 "*"로 치환된 것을 확인할 수 있습니다.<br /> <br /> 제가 Java는 잘 몰라서 ^^ 유사한 코드를 알진 못하지만 아마도 닷넷의 EncoderReplacementFallback 같은 방식이 자바에서도 제공될 것이므로 그것을 찾아보면 됩니다.<br /> <br /> <hr style='width: 50%' /><br /> <br /> 만약, 자바에서 제공되지 않는다면 직접 euc-kr과 unicode 간의 매핑을 해줘야 합니다. 제가 알기로는 이에 대한 공식화된 규칙은 없으며 다른 사람들이 만들어 놓은 소스 코드를 참조하시는 것이 그나마 빠르게 시작할 수 있는 방법입니다.<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > EUC-KR to UNICODE mapping ; <a target='tab' href='http://ricardohu.wikispaces.com/EUC-KR+to+UNICODE+mapping'>http://ricardohu.wikispaces.com/EUC-KR+to+UNICODE+mapping</a> </pre> <br /> 위의 코드 표에서 euc-kr에는 없는 unicode 값이 들어온다면 그 글자를 원하는 것으로 치환하도록 직접 코드를 만들어 주어야 합니다.<br /> </p><br /> <br /><hr /><span style='color: Maroon'>[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]</span> </div>
첨부파일
스팸 방지용 인증 번호
6375
(왼쪽의 숫자를 입력해야 합니다.)