성태의 닷넷 이야기
홈 주인
모아 놓은 자료
프로그래밍
질문/답변
사용자 관리
사용자
메뉴
아티클
외부 아티클
유용한 코드
온라인 기능
MathJax 입력기
최근 덧글
[정성태] Java - How to use the Foreign Funct...
[정성태] 제가 큰 실수를 했군요. ^^; Delegate를 통한 Bein...
[정성태] Working with Rust Libraries from C#...
[정성태] Detecting blocking calls using asyn...
[정성태] 아쉽게도, 커뮤니티는 아니고 개인 블로그입니다. ^^
[정성태] 질문이 잘 이해가 안 됩니다. 우선, 해당 소스코드에서 ILis...
[양승조
] var대신 dinamic으로 선언해서 해결은 했습니다. 맞는 해...
[양승조
] 또 막혔습니다. ㅠㅠ var list = props[i].Ge...
[양승조
] 아. 감사합니다. 어제는 안됐던것 같은데....정신을 차려야겠네...
[정성태] "props[i].GetValue(props[i])" 코드에서 ...
글쓰기
제목
이름
암호
전자우편
HTML
홈페이지
유형
제니퍼 .NET
닷넷
COM 개체 관련
스크립트
VC++
VS.NET IDE
Windows
Team Foundation Server
디버깅 기술
오류 유형
개발 환경 구성
웹
기타
Linux
Java
DDK
Math
Phone
Graphics
사물인터넷
부모글 보이기/감추기
내용
<div style='display: inline'> <h1 style='font-family: Malgun Gothic, Consolas; font-size: 20pt; color: #006699; text-align: center; font-weight: bold'>유니코드의 "compatibility character"가 뭘까요?</h1> <p> 우연히 보게 된 글을 통해,<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > 워드에서 특수문자 빨리 입력하기 ; <a target='tab' href='http://techcap.blog.me/60191845609'>http://techcap.blog.me/60191845609</a> </pre> <br /> "Celsius"에 대해 좀 더 찾아보니,<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > Celsius ; <a target='tab' href='http://en.wikipedia.org/wiki/Celsius'>http://en.wikipedia.org/wiki/Celsius</a> </pre> <br /> 다음의 문구를 접하게 되었습니다.<br /> <br /> <div style='BACKGROUND-COLOR: #ccffcc; padding: 10px 10px 5px 10px; MARGIN: 0px 10px 10px 10px; FONT-FAMILY: Malgun Gothic, Consolas, Verdana; COLOR: #005555'> Unicode character<br /> <br /> Unicode provides a <a target='tab' href='http://en.wikipedia.org/wiki/Unicode_compatibility_characters'><span style='color: blue; font-weight: bold'>compatibility character</span></a> for the degree Celsius at U+2103 (decimal 8451), for compatibility with CJK encodings that provide such a character (as such, in most fonts the width is the same as for fullwidth characters). Its appearance is similar to the one synthesized by individually typing its two components (°) and (C). Shown below is the degree Celsius character followed immediately by the two-component version: </div><br /> <br /> 유니코드에 대해 그런대로 파악했다고 생각했는데,<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > 유니코드와 한글 - 유니코드와 닷넷을 이용한 한글 처리 ; <a target='tab' href='http://www.sysnet.pe.kr/2/0/1294'>http://www.sysnet.pe.kr/2/0/1294</a> </pre> <br /> 갑자기 낯선 "compatibility character"가 눈에 들어온 것입니다. 이에 대해서 알고 넘어가야겠다 싶어 좀 더 검색한 결과 정말 잘 설명한 글이 나왔습니다.<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > 유니코드와 UTF-8, 그리고 자바... ; <a target='tab' href='http://blog.naver.com/hoya519/20023780743'>http://blog.naver.com/hoya519/20023780743</a> </pre> <br /> <hr style='width: 50%' /><br /> <br /> 간단하게 정리해 보겠습니다.<br /> <br /> 다음의 소스코드를 그대로 복사해서 Visual Studio 콘솔 프로젝트의 C# 소스코드에 붙여놓고 실행하면 출력 결과가 어떻게 나올까요?<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > using System; using System.Text; namespace ConsoleApplication1 { class Program { static void Main(string[] args) { Console.WriteLine(BitConverter.ToString(Encoding.Default.GetBytes("車"))); Console.WriteLine(BitConverter.ToString(Encoding.Default.GetBytes("車"))); Console.WriteLine(BitConverter.ToString(Encoding.UTF32.GetBytes("車"))); Console.WriteLine(BitConverter.ToString(Encoding.UTF32.GetBytes("車"))); } } } </pre> <br /> 놀랍게도(?) 다음과 같이 나올 것입니다.<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > CB-E7 F3-B3 02-F9-00-00 CA-8E-00-00 </pre> <br /> 이유는, 제가 첫 번째와 세 번째 글자에 대해서는 '거'자를 입력한 후 키보드의 "한자"키를 눌러 "수레 거"를 선택했고, 두 번째와 네 번째 글자에 대해서는 '차'를 입력한 후 키보드의 "한자"키를 눌러 "수레 차"를 선택했기 때문입니다.<br /> <br /> 동일한 한자인데 발음이 하나는 '거', 하나는 '차'로 나온 것입니다. 'ㄱ'과 'ㅊ'이라는 것 자체가 이미 문자열의 정렬에 영향을 미치기 때문에 코드에도 그것이 반영되어 2개의 코드가 나오는 것은 어찌 보면 타당합니다.<br /> <br /> 문제는 한자권 문화에 속하는 한국, 중국, 일본을 위한 유니코드 통합 한자 영역에는 대표 글자가 1개만 들어갈 수 있다는 점입니다. 아래의 글을 보면,<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > ISO/IEC-10646 Universal Multiple-Octet Coded Character Set (UCS)에 대해서 ; <a target='tab' href='http://www.w3c.or.kr/i18n/hangul-i18n/iso10646.html'>http://www.w3c.or.kr/i18n/hangul-i18n/iso10646.html</a> </pre> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > A-zone: alphabetic and syllabic scripts together with varios symbols <span style='color: blue; font-weight: bold'>I-zone</span>: <span style='color: blue; font-weight: bold'>Chinese/Japanese/Korean (CJK) unified ideographs</span> (unified East Asian ideographs: 통합 한자 영역) O-zone: reserved for future standardisation <span style='color: blue; font-weight: bold'>R-zone</span>: restriced use zone (private use characters, presentation forms, <span style='color: blue; font-weight: bold'>compatibility characters</span>, etc.) </pre> <br /> 각각의 Zone별로 다음과 같은 영역으로 배분되어 있음을 알 수 있습니다.<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > A-zone - 0x0000 ~ 0x4DBF: 19,903 positions 0x4DC0 ~ 0x4DFF: Yijing Hexagram Symbols <span style='color: blue; font-weight: bold'>I-zone - 0x4E00 ~ 0x9FFF: 20,992 positions</span> O-zone - 0xA000 ~ 0xDFFF: 16,384 positions <span style='color: blue; font-weight: bold'>R-zone - 0xE000 ~ 0xFFFF: 8,190 positions</span> unicodeblocks ; <a target='tab' href='https://github.com/nagisa/unicodeblocks/blob/master/unicodeblocks/_blocklist.py'>https://github.com/nagisa/unicodeblocks/blob/master/unicodeblocks/_blocklist.py</a> </pre> <br /> I-zone이라는 설명이 바로 한/중/일 통합 한자 영역인 것입니다. 수레 '차'와 수레 '거'중에 대표 문자로 된 것은 코드 영역에 따라 0x8ECA 값으로 할당된 '수레 차'입니다. 수레 '거'는 0xF902로써 R-zone이고 위에서 그 설명을 보면 "compatibility characters"에 속합니다.<br /> <br /> 이렇게 해서 KS_C_5601-1987 인코딩된 수레 '거(CB-E7)'를 유니코드로 바꾸면 다행히 0xF902로 바뀌고 그것을 다시 KS_C_5601-1987 인코딩으로 바꾸면 수레 '거'로 나올 수 있습니다. 이 정도면 "compatibility characters"라는 개념이 이해되셨을 것입니다.<br /> <br /> 하지만, 이 변환이 "JIS X 0208" 인코딩에서는 어떻게 나올까요? 해당 인코딩에서는 수레 '차'에 해당하는 문자만 있으므로 유니코드에서 "JIS X 0208"로 변환하게 되면 수레 '거'에 대한 정보를 잃어 버립니다. "<a target='tab' href='http://blog.naver.com/hoya519/20023780743'>유니코드와 UTF-8, 그리고 자바...</a>" 문서에 따르면 이런 경우 "compatibility remapping" 함수가 제공되어야만 변환이 된다고 합니다. 하지만 변환이 된다해도 "JIS X 0208" 인코딩에서는 수레 '차'와 수레 '거'가 하나의 인코딩 글자에 매핑되기 때문에 이를 다시 유니코드로 역변환하는 경우 본래의 의미를 상실하게 됩니다.<br /> <br /> <hr style='width: 50%' /><br /> <br /> 참고로 본문에 나와 있는 소스코드는 KSC5601내에 표현된 한자 중에서 EUCJIS에 존재하지 않는 한자를 출력하는 코드를 싣고 있습니다.<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > // -------- HanjaTest.java ---------- // KSC5601내의 한자 범위: 0xCAA1 ~ 0xFDFE (4888 자 = 52 * 94) import java.util.*; public class HanjaTest { public static void main(String args[]) throws java.io.UnsupportedEncodingException { for( int high = 0xCA; high <= 0xFD; ++high ) { for( int low = 0xA1; low <= 0xFE; ++low ) { String unicode = new String(new byte[] {(byte) high, (byte) low}, "KSC5601"); byte[] eucjis = unicode.getBytes("EUCJIS"); System.out.print( Integer.toHexString(high) + Integer.toHexString(low) + " (" + unicode + ") ==> " + Integer.toHexString((int) unicode.charAt(0))); if ( eucjis.length == 1 && (eucjis[0] & 0xFF) == '?' ) { System.out.println( ", 없음" ); } else { System.out.println( ", " + Integer.toHexString(eucjis[0] & 0xFF) + Integer.toHexString(eucjis[1] & 0xFF) ) ; } } } } } </pre> <br /> 위의 경우에는 "EUCJIS" 인코딩을 소개하고 있는데요. 본문의 예제로 들었던 "JIS X 0208" 인코딩은 현재 Java에서 제공되지 않으므로 직접적인 테스트를 할 수는 없었습니다. 하지만 결과는 EUCJIS도 마찬가지로 수레 '거'와 매핑되는 출력이 없습니다.<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > 수레 '거': 3f 수레 '차': bcd6 </pre> <br /> 위에서 0x3f는 '?' 물음표에 대응되는데요. 변환이 실패한 경우 나타나는 fallback 글자입니다. 닷넷의 경우에는 EUCJIS 인코딩을 제공하지 않고 "shift_jis" 인코딩을 사용하는데, 마찬가지로 수레 '거'에 대한 인코딩은 실패합니다.<br /> <br /> <pre style='margin: 10px 0px 10px 10px; padding: 10px 0px 10px 10px; background-color: #fbedbb; overflow: auto; font-family: Consolas, Verdana;' > Console.WriteLine(BitConverter.ToString(Encoding.GetEncoding("shift_jis").GetBytes("車"))); Console.WriteLine(BitConverter.ToString(Encoding.GetEncoding("shift_jis").GetBytes("車"))); ==== 출력 결과 ==== 3F 8E-D4 </pre> <br /> <a target='tab' href='http://www.sysnet.pe.kr/bbs/DownloadAttachment.aspx?fid=820&boardid=331301885'>첨부 파일은 위의 닷넷 부분을 테스트한 코드를 포함</a>하고 있습니다.<br /> </p><br /> <br /><hr /><span style='color: Maroon'>[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]</span> </div>
첨부파일
스팸 방지용 인증 번호
7477
(왼쪽의 숫자를 입력해야 합니다.)