Microsoft MVP성태의 닷넷 이야기
C/C++: 178. C++ - 파일에 대한 Text 모드의 "translated" 동작 [링크 복사], [링크+제목 복사],
조회: 5261
글쓴 사람
정성태 (seongtaejeong at gmail.com)
홈페이지
첨부 파일
(연관된 글이 1개 있습니다.)
(시리즈 글이 3개 있습니다.)
C/C++: 178. C++ - 파일에 대한 Text 모드의 "translated" 동작
; https://www.sysnet.pe.kr/2/0/13766

C/C++: 179. C++ - _O_WTEXT, _O_U16TEXT, _O_U8TEXT의 Unicode stream 모드
; https://www.sysnet.pe.kr/2/0/13768

C/C++: 180. C++ - 고수준 FILE I/O 함수에서의 Unicode stream 모드(_O_WTEXT, _O_U16TEXT, _O_U8TEXT)
; https://www.sysnet.pe.kr/2/0/13776




C++ - 파일에 대한 Text 모드의 "translated" 동작

파일을 위한 Translation 모드로는 Visual C++의 경우 _O_BINARY(_O_RAW), _O_TEXT, _O_WTEXT, _O_U16TEXT, _O_U8TEXT를 지원합니다.

Translation mode constants
; https://learn.microsoft.com/en-us/cpp/c-runtime-library/translation-mode-constants

이 중에서 _O_BINARY를 제외한 모드들은 모두 _O_TEXT 모드의 기본 변환을 지원한다고 하는데요, 이에 대해 문서에는 다음과 같은 특징을 설명합니다.

Opens file in ANSI text (translated) mode. Carriage return-line feed (CR-LF) combinations are translated into a single line feed (LF) on input. Line feed characters are translated into CR-LF combinations on output. Also, CTRL+Z is interpreted as an end-of-file character on input. In files opened for reading, and for reading and writing, fopen checks for CTRL+Z at the end of the file and removes it, if possible. It's removed because using the fseek and ftell functions to move within a file ending with CTRL+Z may cause fseek to behave improperly near the end of the file.


하나씩 직접 테스트를 해볼까요? ^^

우선 CTRL+Z 문자가 입력 시에 제거되는 특징을 살펴보겠습니다. 명령행 창을 열어 다음과 같이 입력해 보면,

// 아래의 ^Z는 키보드에서 CTRL+Z를 눌러 입력할 수 있습니다.

c:\temp> copy con test.txt
test^Z
        1 file(s) copied.

c:\temp>

위의 명령어는 "con"으로 대표되는 입력 장치로부터 사용자가 타이핑한 글자를 받아 출력을 test.txt 파일로 보냅니다. "con"은 "표준 입력(Standard Input)" 장치의 별명인데, stdin은 _O_TEXT 모드로 열리는 대표적인 장치입니다.

The stdin, stdout, and stderr streams always open in text mode by default;

따라서 위의 입력에서는 "test" 문자열과 "CTRL+Z" 문자열(ASCII 26, 0x1A)을 입력했으므로 원칙상으로는 5개의 문자가 파일에 저장돼야 합니다.

하지만, test.txt 파일을 덤프해 보면,

c:\temp> powershell Format-Hex -Path test.txt

           Path: C:\temp\test.txt

           00 01 02 03 04 05 06 07 08 09 0A 0B 0C 0D 0E 0F

00000000   74 65 73 74                                     test

translated 모드의 동작 특성으로 인해 위와 같이 4개의 문자만 있을 뿐 마지막에 0x1A 값이 없습니다. 즉, _O_TEXT 모드로 열린 파일로부터 입력된 CTRL+Z는 제거되는 식으로 처리되기 때문에 출력에 나타나지 않습니다.

stdin 말고, 파일로도 테스트를 해볼까요?

위에 출력된 test.txt 파일을 hexa editor 등을 이용해 's' 글자에 해당하는 0x73 값을 0x1A로 바꿉니다.

00000000   74 65 1A 74       te.t

이후, 저 텍스트 파일을 읽어내는 코드를 만들어,

#include <iostream>

int main()
{
    FILE* fi = nullptr;
    
    fopen_s(&fi, "test_ctrlz.txt", "rt"); // read + text

    char buffer[100];
    while (true)
    {
        int ch = fgetc(fi);
        if (ch == -1) // 0x1A를 읽는 시점에 ch == -1
        {
            break;
        }

        printf("0x%02x,", ch);
    }
}

실행해 보면, 0x1A 문자, 즉 CTRL+Z에 해당하는 문자가 읽히면 ch 값이 0x1A가 아니라 -1이 나옵니다. 왜냐하면, _O_TEXT 모드로 열린 파일에서는 그렇게 CTRL+Z는 제거되는 식으로 처리되기 때문입니다.

반면, _O_BINARY 모드로 열린 파일이라면,

fopen_s(&fi, "test_file.txt", "rb"); // read + binary

이번에는 0x1A를 그 값 그대로 읽어들입니다.




그다음, 출력 시 LF(Line Feed) 문자를 CR-LF(Carriage Return-Line Feed)로 변환하는 것을 확인해 보겠습니다. 문서에 따라 _O_TEXT 모드에서는,

  • 입력 시 CR-LF를 LF로 변환
  • 출력 시 LF를 CR-LF로 변환

이런 변환을 수행한다고 돼 있는데요, 역시 이를 테스트하기 위해 test.txt 파일에 CR, LF에 해당하는 "\r\n" 문자열을 추가해,

00000000   74 65 73 74 0D 0A 74     test..t

위에서 만든 코드로 파일을 읽어보면 다음과 같은 출력을 얻게 됩니다.

0x74,0x65,0x73,0x74,0x0a,0x74,

보는 바와 같이 0D(CR), 0A(LF)가 나오지 않고 0A(LF) 하나만 나왔습니다. 그럼, 반대로 출력 측으로 LF 하나만 보내볼까요? ^^

fopen_s(&fi, "test_out.txt", "wt");
char text[] = "Hello\x0aWorld!";
fprintf(fi, text);
fclose(fi);

'\x0a' 대신 우리가 흔히 알고 있는 '\n'을 써도 상관없습니다. 이걸 실행해 보면, 0x0A 문자 하나의 출력이 다음과 같이 0D 0A로 변환돼 출력되는 것을 확인할 수 있습니다.

00000000   48 65 6C 6C 6F 0D 0A 20 57 6F 72 6C 64 21        Hello.. World!




마지막으로 한 가지 더 테스트할 것은, CTRL+Z 문자(0x1A)가 파일의 끝에 있는 경우,

00000000   74 65 73 74 1A     test.

fopen은 파일을 "a+" / "r+" 모드로 여는 경우, 마지막의 0x1A 문자를 제거한다는 사실입니다. 그래서 다음의 코드는,

{
    FILE* fi = nullptr;

    fopen_s(&fi, "test_ctrlz_end.txt", "a+"); // 또는 "r+"

    int pos = fseek(fi, 0, SEEK_END);
    long size = ftell(fi);

    printf("test_ctrlz_end.txt size: %d (a+)\n", size); // (5가 아닌) 4 출력
    fclose(fi);
}

size 값이 4가 나옵니다. 여기서 한 가지 유의해야 할 점이 있는데요, fopen 함수는 마지막의 0x1A 문자를 제거하는 것뿐만 아니라 그 순간 "저장"까지 해버린다는 점입니다. 물론, text 모드가 아닌 바이너리로 여는 경우, 가령 "a+b" 모드로 열면 0x1A 문자가 제거되지 않습니다.





[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]






[최초 등록일: ]
[최종 수정일: 10/27/2024]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 




... 151  152  153  154  155  156  157  158  [159]  160  161  162  163  164  165  ...
NoWriterDateCnt.TitleFile(s)
1108정성태8/22/201132059오류 유형: 134. OLE/COM Object Viewer - DllRegisterServer in IVIEWERS.DLL failed. [1]
1107정성태8/21/201130599디버깅 기술: 43. Windows Form의 Load 이벤트에서 발생하는 예외가 Visual Studio에서 잡히지 않는 문제
1106정성태8/20/201128843웹: 26. FailedRequestTracing 설정으로 인한 iisexpress.exe 비정상 종료 문제
1105정성태8/19/201128438.NET Framework: 238. Web Site Model 프로젝트에서 Trace.WriteLine 출력이 dbgview.exe에서 확인이 안 되는 문제파일 다운로드1
1104정성태8/19/201128908웹: 25. WebDev보다 IIS Express가 더 나은 점 - 다중 가상 디렉터리 매핑 [1]
1103정성태8/19/201134842오류 유형: 133. WCF 포트 바인딩 실패 오류 - TCP error(10013) [1]
1102정성태8/19/201131962Math: 1. 방탈출3 - Room 10의 '중복가능한 조합' 문제를 위한 C# 프로그래밍 [2]파일 다운로드1
1101정성태8/19/201131122.NET Framework: 237. WCF AJAX 서비스와 JavaScript 간의 DateTime 연동 [1]파일 다운로드1
1100정성태8/17/201130228.NET Framework: 236. SqlDbType - DateTime, DateTime2, DateTimeOffset의 차이점파일 다운로드1
1099정성태8/15/201129598오류 유형: 132. 어느 순간 갑자기 접속이 안 되는 TFS 서버
1098정성태8/15/201151830웹: 24. 네이버는 어떻게 로그인 처리를 할까요? [2]
1097정성태8/15/201122992.NET Framework: 235. 메서드의 메타 데이터 토큰 값으로 클래스를 찾아내는 방법
1096정성태8/15/201127161디버깅 기술: 42. Watson Bucket 정보를 이용한 CLR 응용 프로그램 예외 분석 - (2)
1095정성태8/14/201127525디버깅 기술: 41. Windbg - 비정상 종료된 닷넷 프로그램의 StackTrace에서 보이는 offset 값 의미
1094정성태8/14/201132017오류 유형: 131. Fiddler가 강제 종료된 경우, 웹 사이트 방문이 안되는 현상
1093정성태7/27/201125519오류 유형: 130. Unable to connect to the Microsoft Visual Studio Remote Debugging Monitor ... Access is denied.
1092정성태7/22/201127979Team Foundation Server: 46. 코드 이외의 파일에 대해 소스 제어에서 제외시키는 방법
1091정성태7/21/201127045개발 환경 구성: 128. WP7 Emulator 실행 시 audiodg.exe의 CPU 소모율 증가 [2]
1089정성태7/18/201132688.NET Framework: 234. 왜? Button 컨트롤에는 MouseDown/MouseUp 이벤트가 발생하지 않을까요?파일 다운로드1
1088정성태7/16/201125606.NET Framework: 233. Entity Framework 4.1 - 윈도우 폰 7에서의 CodeFirst 순환 참조 문제파일 다운로드1
1087정성태7/15/201128355.NET Framework: 232. Entity Framework 4.1 - CodeFirst 개체의 직렬화 시 순환 참조 해결하는 방법 - 두 번째 이야기파일 다운로드1
1086정성태7/14/201129646.NET Framework: 231. Entity Framework 4.1 - CodeFirst 개체의 직렬화 시 순환 참조 해결하는 방법 [1]파일 다운로드1
1085정성태7/14/201130157.NET Framework: 230. Entity Framework 4.1 - Code First + WCF 서비스 시 EndpointNotFoundException 오류 - 두 번째 이야기파일 다운로드1
1084정성태7/11/201135691.NET Framework: 229. SQL 서버 - DB 테이블의 데이터 변경에 대한 알림 처리 [4]파일 다운로드1
1083정성태7/11/201129644.NET Framework: 228. Entity Framework 4.1 - Code First + WCF 서비스 시 EndpointNotFoundException 오류
1082정성태7/10/201129289.NET Framework: 227. basicHttpBinding + 사용자 정의 인증 구현 [2]파일 다운로드1
... 151  152  153  154  155  156  157  158  [159]  160  161  162  163  164  165  ...