C# - 같은 모양, 다른 값의 한글 자음을 비교하는 호환 분해
다음과 같은 질문이 있군요. ^^
문자 질문입니다.
; https://www.sysnet.pe.kr/3/0/5065
위 질문에 링크된 글이 재미있습니다.
같은 모양, 다른 값의 한글 자음
; http://winplz.tistory.com/entry/%ED%95%9C%EA%B8%80-%EC%9E%90%EC%9D%8C-%EB%B9%84%EA%B5%90%EA%B0%99%EC%A7%80%EB%A7%8C-%EB%8B%A4%EB%A5%B8-%EC%9E%90%EC%9D%8C%EB%93%A4
위의 글은 iOS의 Objective C나 Swift 환경으로 설명하는 것 같은데, 닷넷 환경으로 질문을 다시 옮겨 보면 이렇습니다.
{
string txt1 = "ㄱ";
string txt2 = "각";
String nfd = txt1.Normalize(System.Text.NormalizationForm.FormD);
String nfc = txt2.Normalize(System.Text.NormalizationForm.FormD);
Console.WriteLine(nfd + ": " + (int)nfd[0]);
Console.WriteLine(nfc[0] + ": " + (int)nfc[0]);
}
/*
출력 결과:
ㄱ: 12593
ㄱ: 4352
*/
출력 결과가 상이한데, 처음의 'ㄱ'은 한글 자음을 나타내는 문자(유니코드 심벌 명은 "Hangul Letter Kiyeok")이고 두 번째 줄의 경우는 약간 '위 첨자' 식으로 상단에 살짝 떠 있는 초성에서의 'ㄱ'(유니코드 심벌 명은 "Hangul Choseong Kiyeok")을 나타냅니다. 따라서, 어찌 보면 당연히 달라야 하지만 '자음 입력에 따른 검색 엔진'을 구현하는 경우에는 이 결과가 그다지 바람직하지 않습니다.
재미있는 것은, 2개의 문자가 속한 "Unicode Group"입니다.
[그림: "Hangul Jamo"에 속한 "Hangul Letter Kiyeok"]
[그림: "Hangul Compatibility Jamo"에 속한 "Hangul Choseong Kiyeok"]
"Hangul Compatibility Jamo"의 wikipedia 설명을 보면,
Hangul Compatibility Jamo
; https://en.wikipedia.org/wiki/Hangul_Compatibility_Jamo
Hangul Compatibility Jamo is a Unicode block containing Hangul characters for compatibility with Korean Standard KS X 1001:1998.
"Hangul Compatibility Jamo" 영역의 문자들은 KS X 1001:1998 표준과 호환하는 글자를 포함한다고 합니다.
KS X 1001
; https://en.wikipedia.org/wiki/KS_X_1001
위의 문서를 보면, KS X 1001은 "KSC-5601"로 불렸던 한글 문자 셋의 새 이름인데, KSC-5601 문자 셋과의 호환을 위해 특별히 유니코드에서 별도로 "
Hangul Compatibility Jamo" 그룹에 배치했다는 정도로 받아들이면 되겠습니다.
다시 문제로 돌아와서, 그러니까 텍스트 박스에 글자를 입력할 때 'ㄱ' 글자만을 입력한 경우 유니코드 상의 값은 12593(0x3131: 한글 호환 자모의 'ㄱ')인 반면 검색해야 할 문자열에 포함된 글자들은 초성으로써의 'ㄱ'이기 때문에 값의 비교를 할 수 없다는 것입니다.
당연히 이 문제를 해결하려면
'정규화'를 해야 하고, 정규화 시 글자의 분해를 '정준 분해'가 아닌 '호환 분해'를 하면 됩니다. 따라서 다음과 같이 코딩하는 것으로 해결할 수 있습니다.
{
string txt1 = "ㄱ";
string txt2 = "각";
String nfd = txt1.Normalize(System.Text.NormalizationForm.FormKD);
String nfc = txt2.Normalize(System.Text.NormalizationForm.FormKD);
Console.WriteLine(nfd + ": " + (int)nfd[0]);
Console.WriteLine(nfc[0] + ": " + (int)nfc[0]);
}
/*
출력 결과:
ㄱ: 4352
ㄱ: 4352
*/
보는 바와 같이 2개 모두 (단 자음으로서의 'ㄱ'이 아닌) '초성'으로서의 'ㄱ'으로 값을 비교할 수 있습니다. 자바의 경우에도 Normalizer.normalize 메서드를 지원하므로 Normalizer.Form.NFD 옵션으로 분해해 해결할 수 있습니다.
[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]