Microsoft MVP성태의 닷넷 이야기
글쓴 사람
정성태 (seongtaejeong at gmail.com)
홈페이지
첨부 파일
 
(연관된 글이 2개 있습니다.)
(시리즈 글이 5개 있습니다.)
Windows: 265. Win32 API의 W(유니코드) 버전은 UCS-2일까요? UTF-16 인코딩일까요?
; https://www.sysnet.pe.kr/2/0/13777

C/C++: 181. C/C++ - 소스코드 파일의 인코딩, 바이너리 모듈 상태의 인코딩
; https://www.sysnet.pe.kr/2/0/13778

C/C++: 182. 윈도우가 운영하는 2개의 Code Page
; https://www.sysnet.pe.kr/2/0/13785

Windows: 267. Win32 API의 A(ANSI) 버전은 DBCS를 사용할까요?
; https://www.sysnet.pe.kr/2/0/13791

C/C++: 183. C++ - 윈도우에서 한글(및 유니코드)을 포함한 콘솔 프로그램을 컴파일 및 실행하는 방법
; https://www.sysnet.pe.kr/2/0/13793




C++ - 윈도우에서 한글(및 유니코드)을 포함한 콘솔 프로그램을 컴파일 및 실행하는 방법

(설명을 집중하기 위해 한글 윈도우보다는 영문 윈도우를 기준으로 설명합니다.)

영문 윈도우에서 C++ 프로그램을 다음과 같이 만들고,

#include <iostream>

int main()
{
    std::cout << "안녕하세요\n";
}

컴파일 후 실행하면 결과가 어떻게 나올까요?

이를 위해 우선 소스코드 파일을 저장하는 단계부터 살펴봐야 합니다. 일단 한글이 포함된 소스코드는 (영문 윈도우의 기본 코드 페이지인) CP437/CP1252 상태로는 저장 자체가 안 됩니다. 반면 CP949(비주얼 스튜디오의 경우 "Korean - Codepage 949")로 저장하면 어떨까요?

물론 949 코드 페이지에 따른 문자 셋으로 저장은 됩니다. 문제는 해당 파일을 비주얼 스튜디오에서 다시 열었을 때 "안녕하세요" 문자열이 깨진다는 점입니다. 왜냐하면, 비주얼 스튜디오는 해당 파일을 (BOM 없는) UTF-8로 판정해 읽기 때문입니다.

대신, 에디터 화면에서 한글이 깨지는 문제를 감수한다면 빌드 및 실행은 문제가 없습니다. 물론, 실행할 때 코드 페이지를 반드시 949로 맞춰주어야만 한글이 정상적으로 출력됩니다.

// 현재 코드 페이지는 영문 윈도우의 경우 437
C:\temp\ConsoleApplication1\x64\Debug> chcp
Active code page: 437

// 437 코드 페이지에서는 949로 저장한 문자 셋이 깨짐
C:\temp\ConsoleApplication1\x64\Debug> ConsoleApplication1.exe
╛╚│τ╟╧╝╝┐Σ

// 반면, 949 코드 페이지로 변경하면,
C:\temp\ConsoleApplication1\x64\Debug> chcp 949
Active code page: 949

// 한글도 정상 출력
C:\temp\ConsoleApplication1\x64\Debug> ConsoleApplication1.exe
안녕하세요

혹은, 저 chcp를 코드 내에서 처리해도 무방합니다.

#include <iostream>
#include <Windows.h>

int main()
{
    SetConsoleOutputCP(949);
    // 또는, 
    // system("chcp 949");

    std::cout << "¾È³çÇϼ¼¿ä"; // 출력 결과: 안녕하세요
}




당연히 저렇게 소스코드 내의 문자가 깨진 상태로 개발을 하는 것은 불편할 수밖에 없습니다. 따라서, 이런 경우 현실적으로는 유니코드로 저장하는 것이 올바른 선택입니다.

// UTF-8로 저장

#include <iostream>

int main()
{
    std::cout << "안녕하세요\n";
}

하지만, 이 상태는 "소스코드 파일의 인코딩" 단계를 해결한 것일 뿐, "바이너리 모듈 상태의 인코딩"은 전혀 다른 문제가 됩니다.

즉, C++ 컴파일러는 입력 파일 자체는 정상적으로 해석을 하지만, 출력은 (시스템의 코드 페이지인) CP1252로 처리하기 때문에 이번엔 실행 시 (깨지는 정도가 아닌) 단순히 "?????"로 출력됩니다. 왜냐하면, UTF-8로 저장된 "안녕하세요" 문자에 대해 CP1252 문자 셋으로는 표현이 안 되기 때문에 바이너리에 fallback 문자로 출력을 해버린 것입니다.

따라서, 바이너리에도 UTF-8 인코딩을 이어가려면 컴파일러에게 이 사실을 알려야 합니다.

// 현재의 파일 자체는 UTF-8로 저장

// 실행 모듈에 utf-8 인코딩 지시
#pragma execution_character_set( "utf-8" )

#include <iostream>

int main()
{
    std::cout << "안녕하세요\n";
}

그러니까 ^^ 바로 여기까지가 지난 글에서 다뤘던 내용입니다.

C/C++ - 소스코드 파일의 인코딩, 바이너리 모듈 상태의 인코딩
; https://www.sysnet.pe.kr/2/0/13778




다시 한번 정리해 보면, 현실적으로 C++ 프로그램은 UTF-8로 저장하고, 컴파일러에게 바이너리에도 UTF-8로 저장하라는 지시를 포함시키는 것을 기본 방향으로 삼아야 합니다.

자, 그렇게 해서 "바이너리" 모듈은 준비가 되었습니다. 그렇다면 이제 저렇게 utf-8을 따르는 바이너리 모듈을 실행하면 어떤 결과가 나올까요?

C:\temp\ConsoleApplication1\x64\Debug> ConsoleApplication1.exe
안녕하세요

보는 바와 같이 그래도 한글이 깨집니다. 이유는 간단합니다, 영문 윈도우의 콘솔 화면은 CP437을 따르기 때문에 UTF-8로 출력된 문자열은 저렇게 깨져 나오는 것입니다. 물론, 저 프로그램을 한글 윈도우에서 실행해도, (CP949 코드 페이지는 UTF-8을 이해할 수 없으므로) 역시 한글은 깨집니다.

이 문제를 해결하려면, 단순히 콘솔 화면의 코드 페이지를 65001로 바꾸기만 하면 됩니다.

// 현재의 파일 자체는 UTF-8로 저장

// 실행 모듈에 utf-8 인코딩 지시
#pragma execution_character_set( "utf-8" )

#include <iostream>
#include <Windows.h>

int main()
{
    SetConsoleOutputCP(65001);

    // 또는 아래와 같이 system 명령어를 수행해도 되지만,
    // system("chcp 65001 > nul");
    // SetConsoleOutputCP와 다른 점이 있다면 응용 프로그램이 종료했을 때 여전히 65001로 남아있게 되므로
    // 다시 코드 페이지를 돌려놓는 과정이 필요함.

    std::cout << "안녕하세요\n";
}

// 현재 코드 페이지와 무관하게,
C:\temp\ConsoleApplication1\x64\Debug> chcp
Active code page: 437

// utf-8을 지원하는 응용 프로그램의 출력이 정상적으로 나옴
C:\temp\ConsoleApplication1\x64\Debug> ConsoleApplication1.exe
안녕하세요




이 외에도 또 다른 방법으로 한글(및 유니코드)를 출력하는 방법이 있는데요, 바로 W 버전을 사용하는 것입니다. 이를 위해 C++ 소스코드를 char 대신 wchar_t로 바꿔 작성하면 되는데요,

#include <iostream>

int main()
{
    std::wcout << L"Hello, 안녕하세요\n";
    std::wcout << L"World\n";
}

그런데, 위와 같이 바꿔도 실행해 보면 화면에 "Hello,"만 출력될 뿐 한글 문자는 아예 보이지도 않습니다.

C:\temp\ConsoleApplication1\x64\Debug> ConsoleApplication1.exe
Hello,

// 재미있는 건, 한글 출력을 못한 그 순간부터는 모든 출력을 실패(?)하게 됩니다.
// 그래서 "World"도 출력이 안 된 것입니다.

도대체 왜 이런 걸까요? 이유는, Text 모드에 있습니다.

C++ - 파일에 대한 Text 모드의 "translated" 동작
; https://www.sysnet.pe.kr/2/0/13766

C++ - _O_WTEXT, _O_U16TEXT, _O_U8TEXT의 Unicode stream 모드
; https://www.sysnet.pe.kr/2/0/13768

C/C++: 180. C++ - 고수준 FILE I/O 함수에서의 Unicode stream 모드(_O_WTEXT, _O_U16TEXT, _O_U8TEXT)
; https://www.sysnet.pe.kr/2/0/13776

기본적으로 C++ 프로그램은 표준 출력(stdout)에 대해 _O_TEXT 모드로 동작하기 때문에, UTF-16 문자열의 출력이 ANSI로 자동 번역이 돼 정상적인 한글 출력이 안 되는 것입니다.

따라서, 이런 경우에는 명시적으로 표준 출력을 UTF-16 모드로 변경해 주어야 합니다.

#include <iostream>
#include <io.h> // _setmode
#include <fcntl.h> // _O_U16TEXT

int main()
{
    int old_mode = _setmode(_fileno(stdout), _O_U16TEXT); // 표준 출력을 UTF-16 모드로 변경
    wprintf(L"old_mode: 0x%x\n", old_mode); // 0x4000 == _O_TEXT
    std::wcout << L"Hello, 안녕하세요\n"; // 또는 아예 WriteConsoleW와 같은 Win32 API를 사용하거나!
    std::wcout << L"World\n";
}

/* 출력 결과:
old_mode: 0x4000
Hello, 안녕하세요
World
*/

또는, 원한다면 (utf-8 인코딩 모드인) _O_U8TEXT 모드로 변경할 수 있습니다.

#include <iostream>
#include <io.h> // _setmode
#include <fcntl.h> // _O_U8TEXT

int main()
{
    _setmode(_fileno(stdout), _O_U8TEXT);
    std::wcout << L"Hello, 안녕하세요\n";
    std::wcout << L"World\n";
}

위의 코드가 재미있는 점이 하나 있는데요, 얼핏 코드 페이지를 65001로 바꿔야만 할 것 같은데 그렇게 안 해도 한글이 잘 출력된다는 점입니다. 출력을 redirect하면 분명히 utf-8로 인코딩된 것이 맞는데요,

C:\temp\ConsoleApplication1\x64\Debug> ConsoleApplication1.exe > test.txt

// 코드 페이지는 437,
C:\temp\ConsoleApplication1\x64\Debug> chcp
Active code page: 437

// 따라서 한글이 깨져 나오고,
C:\temp\ConsoleApplication1\x64\Debug> type test.txt
Hello, 안녕하세요
World

// 65001 코드 페이지에서만 정상적으로 한글 출력
C:\temp\ConsoleApplication1\x64\Debug> chcp 65001
Active code page: 65001

C:\temp\ConsoleApplication1\x64\Debug> type test.txt
Hello, 안녕하세요
World

음... 뭔가 ^^; 있긴 하겠지만 현재는 저것까지 설명은 안 됩니다. (혹시 아시는 분은 덧글 부탁드립니다. ^^)




참고로, C#의 유니코드 대응과 비교해 보는 것도 좋을 듯합니다. ^^

기본 해석은, "소스코드 파일의 인코딩", "바이너리 모듈 상태의 인코딩", "실행 환경" 3가지를 고려해야 한다는 점은 같은데요, 우선 C#은 소스코드 파일을 기본적으로 비주얼 스튜디오 환경이 UTF-8로 저장합니다. 그렇다면 파일의 문자 셋 해석 문제는 자연스럽게 해결됩니다. 이후, C# 컴파일러는 소스코드의 모든 문자열을 UTF-16으로 변환해 바이너리에 포함시킵니다. 따라서, 바이너리 모듈 상태의 인코딩도 문제가 없습니다.

실행 시에는 어떨까요? C#은 C++이 가지는 file descriptor, FILE Stream 등의 개념을 배제하고 운영체제에서 제공하는 함수를 사용하므로, 즉 윈도우의 경우에는 기본적으로 W 버전의 API를 사용해 I/O를 수행하기 때문에 이것 역시 유니코드 출력에 문제가 없습니다.

따라서, C#으로는 아무 생각 없이 코딩을 해도 기본적으로 한글이 깨지는 등의 문제가 발생하지 않는 것입니다.
(물론, 기존 코드 페이지로 인코딩된 파일을 I/O 할 때는 문제가 발생합니다.)




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]






[최초 등록일: ]
[최종 수정일: 10/30/2024]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 




... 121  122  123  124  125  126  127  128  129  130  131  [132]  133  134  135  ...
NoWriterDateCnt.TitleFile(s)
1756정성태9/23/201427497기타: 48. NVidia 제품의 과다한 디스크 사용 [2]
1755정성태9/22/201434281오류 유형: 241. Unity Web Player를 설치해도 여전히 설치하라는 화면이 나오는 경우 [4]
1754정성태9/22/201424684VC++: 80. 내 컴퓨터에서 C++ AMP 코드가 실행이 될까요? [1]
1753정성태9/22/201420623오류 유형: 240. Lync로 세미나 참여 시 소리만 들리지 않는 경우 [1]
1752정성태9/21/201441073Windows: 100. 윈도우 8 - RDP 연결을 이용해 VNC처럼 사용자 로그온 화면을 공유하는 방법 [5]
1751정성태9/20/201438964.NET Framework: 464. 프로세스 간 통신 시 소켓 필요 없이 간단하게 Pipe를 열어 통신하는 방법 [1]파일 다운로드1
1750정성태9/20/201423837.NET Framework: 463. PInvoke 호출을 이용한 비동기 파일 작업파일 다운로드1
1749정성태9/20/201423739.NET Framework: 462. 커널 객체를 위한 null DACL 생성 방법파일 다운로드1
1748정성태9/19/201425391개발 환경 구성: 238. [Synergy] 여러 컴퓨터에서 키보드, 마우스 공유
1747정성태9/19/201428519오류 유형: 239. psexec 실행 오류 - The system cannot find the file specified.
1746정성태9/18/201426110.NET Framework: 461. .NET EXE 파일을 닷넷 프레임워크 버전에 상관없이 실행할 수 있을까요? - 두 번째 이야기 [6]파일 다운로드1
1745정성태9/17/201423045개발 환경 구성: 237. 리눅스 Integration Services 버전 업그레이드 하는 방법 [1]
1744정성태9/17/201431070.NET Framework: 460. GetTickCount / GetTickCount64와 0x7FFE0000 주솟값 [4]파일 다운로드1
1743정성태9/16/201420986오류 유형: 238. 설치 오류 - Failed to get size of pseudo bundle
1742정성태8/27/201426986개발 환경 구성: 236. Hyper-V에 설치한 리눅스 VM의 VHD 크기 늘리는 방법 [2]
1741정성태8/26/201421339.NET Framework: 459. GetModuleHandleEx로 알아보는 .NET 메서드의 DLL 모듈 관계파일 다운로드1
1740정성태8/25/201432528.NET Framework: 458. 닷넷 GC가 순환 참조를 해제할 수 있을까요? [2]파일 다운로드1
1739정성태8/24/201426576.NET Framework: 457. 교착상태(Dead-lock) 해결 방법 - Lock Leveling [2]파일 다운로드1
1738정성태8/23/201422069.NET Framework: 456. C# - CAS를 이용한 Lock 래퍼 클래스파일 다운로드1
1737정성태8/20/201419775VS.NET IDE: 93. Visual Studio 2013 동기화 문제
1736정성태8/19/201425597VC++: 79. [부연] CAS Lock 알고리즘은 과연 빠른가? [2]파일 다운로드1
1735정성태8/19/201418271.NET Framework: 455. 닷넷 사용자 정의 예외 클래스의 최소 구현 코드 - 두 번째 이야기
1734정성태8/13/201419934오류 유형: 237. Windows Media Player cannot access the file. The file might be in use, you might not have access to the computer where the file is stored, or your proxy settings might not be correct.
1733정성태8/13/201426367.NET Framework: 454. EmptyWorkingSet Win32 API를 사용하는 C# 예제파일 다운로드1
1732정성태8/13/201434489Windows: 99. INetCache 폴더가 다르게 보이는 이유
1731정성태8/11/201427089개발 환경 구성: 235. 점(.)으로 시작하는 파일명을 탐색기에서 만드는 방법
... 121  122  123  124  125  126  127  128  129  130  131  [132]  133  134  135  ...