Microsoft MVP성태의 닷넷 이야기
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
 
(연관된 글이 2개 있습니다.)

Golang - (문자가 아닌) 바이트 위치를 반환하는 strings.IndexRune 함수

golang의 경우 string 타입이 내부적으로 utf-8 인코딩을 유지하고 있는데요, 따라서 한글은 한 문자에 대해 3바이트의 공간을 차지합니다.

가령, 다음과 같이 문자열을 열거하는 경우,

val := "테스트1"

for i, ch := range val {
    fmt.Printf("%d - %c\n", i, ch)
}
/* 출력 결과
0 - 테
3 - 스
6 - 트
9 - 1
*/

글자는 하나씩 매핑이 되지만, 인덱스는 0, 3, 6, 9와 같이 나옵니다. 혹은 다음과 같이 열거하게 되면,

for i:=0; i < len(val); i ++ {
    fmt.Printf("%d - %c\n", i, val[i])
}
/* 출력 결과
0 - í
1 - 

2 - Œ
3 - ì
4 - Š
5 - ¤
6 - í
7 - Š
8 - ¸
9 - 1
10
*/

(대부분의 경우에서) 원치 않는 결과를 얻게 됩니다. 이러한 불균형은 rune 타입을 이용하는 것으로 해결할 수 있습니다.

val := "테스트1"

runeVal := []rune(val)

for i, ch := range runeVal {
    fmt.Printf("%d - %c\n", i, ch)
}
/* 출력 결과
0 - 테
1 - 스
2 - 트
3 - 1
*/

fmt.Printf("len(val) == %d\n", utf8.RuneCountInString(val)) // len(val) == 4

여기서, 특정 문자를 찾는 것을 해볼까요? 이를 위해 golang에서는 strings.Index와 strings.IndexRune을 제공합니다.

fmt.Printf("%d\n", strings.IndexRune(val, '1'))
fmt.Printf("%d\n", strings.Index(val, "1"))

/* 출력 결과
9
9
*/

그런데, 보다시피 출력 결과가 byte 기준의 index만을 반환하고 있습니다. 즉, 위의 결과에서 3이 나올 수 있는 Index 함수가 없는 것입니다. 이로 인해 [] rune을 열거하는 for 루프 내에서 IndexRune 함수를 쓰는 것이 매우 애매해집니다.

val := "테스트1"

runeVal := []rune(val)

for i, ch := range runeVal {
  // pos는 바이트 메모리의 위치이므로 runeVal의 위치와 무관
  // 또한 val[i:]도 바이트를 기준으로 한 위치이므로 runeVal의 index와 무관
  pos := strings.IndexRune(val[i:], '1')
}

사실 이를 위해 가장 좋은 방법은 [] rune 타입에서 Index를 제공하는 것인데 현재는 이를 제공하지 않으므로 그냥 만들어 써야 합니다.

How found offset index a string in rune using go
; https://stackoverflow.com/questions/41956391/how-found-offset-index-a-string-in-rune-using-go

val := "테스트1"

runeVal := []rune(val)

fmt.Printf("%d\n", search(runeVal, "i")) // -1
fmt.Printf("%d\n", search(runeVal, "1")) // 3

func search(text []rune, what string) int {
    whatRunes := []rune(what)

    for i := range text {
        found := true
        for j := range whatRunes {
            if text[i+j] != whatRunes[j] {
                found = false
                break
            }
        }

        if found {
            return i
        }
    }
    return -1
}




기타 또 한 가지 언급하자면, go 언어의 문자열 취급이 C/C++의 전통적인 null 처리를 따르지 않는다는 점이 재미있습니다. 그래서, 바이트 배열에 대해 문자열 변환을 해도 null을 포함해 문자열이 구성됩니다.

package main

import (
    "fmt"
)

func main() {

    buffer := []byte{61, 61, 0, 62, 62}
    t1 := string(buffer[:])

    fmt.Printf("%s\n", t1)
}

// 출력 결과: ==>>
// GoLand IDE의 콘솔 창으로 보면 "=="와 ">>" 사이에 '⍁' 문자가 '\0'을 대신해 출력합니다.

이런 경우, 만약 문자열을 null로 끊어내고 싶다면,

How can I convert a null-terminated string in a byte buffer to a string in Go?
; https://stackoverflow.com/questions/12359777/how-can-i-convert-a-null-terminated-string-in-a-byte-buffer-to-a-string-in-go

(문자열이 아닌) bytes 패키지의 Cut 함수를 사용해 말 그대로 null을 기준으로 미리 잘라내 문자열 변환을 해야 합니다.

t1, _, _ := bytes.Cut(buffer, []byte{0})




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]






[최초 등록일: ]
[최종 수정일: 11/20/2024]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 




... 136  137  138  139  140  141  142  [143]  144  145  146  147  148  149  150  ...
NoWriterDateCnt.TitleFile(s)
1479정성태8/14/201325192오류 유형: 183. IIS - 바인딩 추가 시 Object reference not set to an instance of an object 오류 [5]
1478정성태8/14/201328505오류 유형: 182. 윈도우 정품 활성화 오류 - 0x80070426
1477정성태8/14/201327356VC++: 71. codeplex의 Project Austin - 실감나게 책장 넘기는 표현
1476정성태8/13/201335834디버깅 기술: 55. Windbg - 윈도우 핸들 테이블 (2)
1475정성태8/12/201334943.NET Framework: 377. 프로세스가 종료된 후에도 소켓이 살아있다면?파일 다운로드1
1474정성태8/10/201331005오류 유형: 181. 윈도우 8 - WmiPrvSE.exe 프로세스가 CPU 소비하는 현상
1473정성태8/8/201327811VC++: 70. Win32 socket이 Thread-safe할까? [1]파일 다운로드1
1472정성태8/7/201326253.NET Framework: 376. .NET 2.0의 유니코드 관련 문자열 비교 오류
1471정성태8/7/201331011개발 환경 구성: 193. .aspx 확장자 대신 .html 확장자를 사용하는 방법
1470정성태8/6/201327008오류 유형: 180. DISM.exe 0xc1510111 실행 오류
1469정성태8/6/201324074.NET Framework: 375. System.Net.Sockets.Socket이 Thread-safe할까? [2]파일 다운로드1
1468정성태8/6/201322219오류 유형: 179. IIS - No connection could be made because the target machine actively refused it 127.0.0.1:80
1467정성태8/5/201325664Java: 16. IE에 로드된 Java Applet의 다운로드 위치를 확인하는 방법
1466정성태7/27/201331270.NET Framework: 374. C#과 비교한 C++ STL vector 성능 [7]파일 다운로드1
1465정성태7/18/201334572기타: 33. C:\Windows\Installer 폴더의 용량 줄이기 [3]
1464정성태7/15/201322837오류 유형: 178. Visual Studio 2012 Express - ImportCardinalityMismatchException
1463정성태7/15/201323493오류 유형: 177. [DBNETLIB][ConnectionOpen (Connect()).]SQL Server does not exist or access denied.
1462정성태7/5/201326796VC++: 69. geek스러운 C/C++ 퀴즈 문제 [2]
1461정성태6/27/201343344.NET Framework: 373. C# 문자열의 인코딩이란?
1460정성태6/17/201325199.NET Framework: 372. PerformanceCounter - Category does not exist. [1]
1459정성태6/15/201328828Windows: 74. 한글 키가 아닌 영문 키를 기본으로 선택하는 방법 [5]
1458정성태6/13/201329672.NET Framework: 371. CAS Lock 방식이 과연 성능에 얼마나 도움이 될까요? [1]파일 다운로드1
1457정성태6/13/201325871개발 환경 구성: 192. "Probabilistic Programming and Bayesian Methods for Hackers" 예제 코드 실행 방법
1456정성태6/5/201334541.NET Framework: 370. C# - WebKit .NET 사용 [2]파일 다운로드1
1455정성태6/1/201328313.NET Framework: 369. ThreadPool.QueueUserWorkItem의 실행 지연 [4]파일 다운로드1
1454정성태5/31/201326333Java: 15. Java 7 Control Panel 실행시키는 방법
... 136  137  138  139  140  141  142  [143]  144  145  146  147  148  149  150  ...