Microsoft MVP성태의 닷넷 이야기
.NET Framework: 251. string.GetHashCode 는 hash 값을 cache 할까? [링크 복사], [링크+제목 복사]
조회: 9989
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
 

string.GetHashCode 는 hash 값을 cache 할까?

잊혀져 가는 GetHashCode 에 대한 자료들을 같이 소개도 할 겸,

순환참조와 XmlSerializer
; https://www.sysnet.pe.kr/2/0/751

Dictionary.Get(A) 대신 Dictionary.Get(A.GetHashCode()) 를 사용해서는 안되는 이유
; https://www.sysnet.pe.kr/2/0/889

이번에는 오늘 문득 코딩을 하다 궁금한 점이 있어서 그 결과를 써봅니다. (회사가 성능 관련 문제를 다루다 보니, 제가 만드는 코드 하나하나에 직업병이 생기더군요. ^^)

보통 GetHashCode 사용에 부담스러울 때가 있는데요. 바로, "문자열"에 대해 GetHashCode를 호출하는 경우일 것입니다. 왜냐하면, 해시값을 내기 위해 모든 문자를 열람하게 되기 때문에 문자열이 커질수록 속도에 영향을 미칠 수 있기 때문입니다.

그렇다면, Immutable 속성의 string 타입에서 GetHashCode 를 내부적으로 값을 cache 하고 있지 않을까요? 어떻게 생각하세요?

답은? Cache 하고 있지 않습니다. ".NET Reflector"를 이용하여 System.String.GetHashCode 의 코드를 살펴보면, 다음과 같이 매번 모든 문자열을 열람하는 것을 볼 수 있습니다.

public override unsafe int GetHashCode()
{
    fixed (char* str = ((char*) this))
    {
        char* chPtr = str;
        int num = 0x15051505;
        int num2 = num;
        int* numPtr = (int*) chPtr;
        for (int i = this.Length; i > 0; i -= 4)
        {
            num = (((num << 5) + num) + (num >> 0x1b)) ^ numPtr[0];
            if (i <= 2)
            {
                break;
            }
            num2 = (((num2 << 5) + num2) + (num2 >> 0x1b)) ^ numPtr[1];
            numPtr += 2;
        }
        return (num + (num2 * 0x5d588b65));
    }
}

그런데, 위에서 보니 재미있는 코드가 눈에 띕니다. 바로, 내부적으로 관리하는 char * 버퍼를 int * 로 형변환 해서 사용한다는 점입니다. 이 때문에 문자열 길이가 4byte 인 경우 루프를 4번 돌지 않고 1번 만에 처리해 버립니다. 오호~~~ 속도 향상을 위해 꽤나 고민한 흔적이 엿보입니다. ^^

그렇다면? C# 의 문자열은 최소 4byte 간격으로 메모리를 패딩하고 있음을 짐작하게 됩니다. 정말 그런지 확인해 볼까요?

C#을 실행하고 메모리 윈도우를 통해서 조사해 보면 알 수 있을 것입니다.

어디... 문자열이 "t" 값만을 갖고 있는 경우를 볼까요?

== "t" 인 경우 ===
74 00 00 00 00 00 00 80 28 ac 3a 00 01 00 00 00 71 00 00 00 00 00 00 00 00 00  t......€(¬:.....q.........
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00  

유니코드이기 때문에 내부적으로 "t" 값은 "74 00" 2바이트를 차지합니다. 그리고 C/C++ 에서의 "NULL" 표시를 위해 "0" 값을 사용하는데 이것 역시 2바이트를 차지하므로 사실상 "t" 한 글자를 표현하기 위해 "74 00 00 00" 과 같이 4바이트를 필요로 합니다.

그럼 이번에는 "te" 와 같이 두 글자로 늘여볼까요?

74 00 65 00 00 00 00 00 00 00 00 80 28 ac 3f 00 01 00 00 00 71 00 00 00 00 00  t.e........€(¬?.....q.....
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

"te"를 표현하기 위해 "74 00 65 00" 이 소모되었지만, 널 문자가 빠졌기 때문에 "00 00" 이 필요합니다. 하지만 4byte 정렬이기 때문에 사실상 "te" == "74 00 65 00 00 00 00 00"이 됩니다. 이렇게 판단할 수 있는 또 다른 근거로는, 그 이후에 "t"에서와 마찬가지로 "00 00 00 80" 값이 규칙적으로 나온다는 것을 관찰할 수 있기 때문입니다.

마지막으로 "test"로 해보면... 이제 결과를 예측할 수 있겠지요. ^^

74 00 65 00 73 00 74 00 00 00 00 00 00 00 00 80 28 ac 4d 00 08 00 00 00 71 00  t.e.s.t........€(¬M.....q.
77 00 65 00 72 00 74 00 65 00 73 00 74 00 00 00 00 00 00 00 00 00 00 00 00 00 

GetHashCode가 값을 Cache 하고 있는지를 알아보려다가... 어느새 String 의 내부 문자열 정렬을 알아보는 것 까지 와버렸군요. ^^

참고로, .NET 4.0 의 string.GetHashCode 를 외부로 빼서 구현해 보면 다음과 같습니다.

static unsafe void Main(string[] args)
{
    string txt = "tes";

    int hash1 = GetHashCode(txt);
    int hash2 = txt.GetHashCode();

    Console.WriteLine(hash1); // -175665545 (.NET 4.0 인 경우.)
    Console.WriteLine(hash2); // -175665545
    Console.WriteLine(hash1 == hash2); // True
}

static unsafe int GetHashCode(string txt)
{
    fixed (char* str = txt)
    {
        char* chPtr = str;
        int num = 0x15051505;
        int num2 = num;
        int* numPtr = (int*)chPtr;
        for (int i = txt.Length; i > 0; i -= 4)
        {
            num = (((num << 5) + num) + (num >> 0x1b)) ^ numPtr[0];
            if (i <= 2)
            {
                break;
            }
            num2 = (((num2 << 5) + num2) + (num2 >> 0x1b)) ^ numPtr[1];
            numPtr += 2;
        }

        return (num + (num2 * 0x5d588b65));
    }
}




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]





[최초 등록일: ]
[최종 수정일: 5/26/2012 ]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer@outlook.com

비밀번호

댓글 쓴 사람
 




1  [2]  3  4  5  6  7  8  9  10  11  12  13  14  15  ...
NoWriterDateCnt.TitleFile(s)
12354정성태10/2/202068오류 유형: 660. Web Deploy (msdeploy.axd) 실행 시 오류 기록
12353정성태10/7/202089개발 환경 구성: 518. 비주얼 스튜디오에서 IIS 웹 서버로 "Web Deploy"를 이용해 배포하는 방법
12352정성태10/2/2020121개발 환경 구성: 517. Hyper-V Internal 네트워크에 NAT을 이용한 인터넷 연결 제공
12351정성태10/2/202076오류 유형: 659. Nox 실행이 안 되는 경우 - Unable to bind to the underlying transport for ...
12350정성태9/25/2020280Windows: 175. 윈도우 환경에서 클라이언트 소켓의 최대 접속 수파일 다운로드1
12349정성태9/25/2020161Linux: 32. Ubuntu 20.04 - docker를 위한 tcp 바인딩 추가
12348정성태9/25/2020137오류 유형: 658. 리눅스 docker - Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.sock
12347정성태9/25/2020225Windows: 174. WSL 2의 네트워크 통신 방법
12346정성태9/25/2020104오류 유형: 657. IIS - http://localhost 방문 시 Service Unavailable 503 오류 발생
12345정성태9/25/2020104오류 유형: 656. iisreset 실행 시 "Restart attempt failed." 오류가 발생하지만 웹 서비스는 정상적인 경우
12344정성태9/25/2020116Windows: 173. 서비스 관리자에 "IIS Admin Service"가 등록되어 있지 않다면?
12343정성태9/24/2020359.NET Framework: 945. C# - 닷넷 응용 프로그램에서 메모리 누수가 발생할 수 있는 패턴
12342정성태9/25/2020253디버깅 기술: 171. windbg - 인스턴스가 살아 있어 메모리 누수가 발생하고 있는지 확인하는 방법
12341정성태9/23/2020302.NET Framework: 944. C# - 인스턴스가 살아 있어 메모리 누수가 발생하고 있는지 확인하는 방법파일 다운로드1
12340정성태9/23/2020206.NET Framework: 943. WPF - WindowsFormsHost를 담은 윈도우 생성 시 메모리 누수
12339정성태9/21/2020150오류 유형: 655. 코어 모드의 윈도우는 GUI 모드의 윈도우로 교체가 안 됩니다.
12338정성태9/21/2020118오류 유형: 654. 우분투 설치 시 "CHS: Error 2001 reading sector ..." 오류 발생
12337정성태9/21/2020132오류 유형: 653. Windows - Time zone 설정을 바꿔도 반영이 안 되는 경우
12336정성태9/21/2020286.NET Framework: 942. C# - WOL(Wake On Lan) 구현
12335정성태10/12/2020181Linux: 31. 우분투 20.04 초기 설정 - 고정 IP 및 SSH 설치
12334정성태9/21/2020110오류 유형: 652. windbg - !py 확장 명령어 실행 시 "failed to find python interpreter"
12333정성태9/20/2020202.NET Framework: 941. C# - 전위/후위 증감 연산자에 대한 오버로딩 구현 (2)
12332정성태9/18/2020178.NET Framework: 940. C# - Windows Forms ListView와 DataGridView의 예제 코드파일 다운로드1
12331정성태9/24/2020166오류 유형: 651. repadmin /syncall - 0x80090322 The target principal name is incorrect.
12330정성태9/20/2020331.NET Framework: 939. C# - 전위/후위 증감 연산자에 대한 오버로딩 구현 [2]파일 다운로드1
12329정성태9/16/2020199오류 유형: 650. ASUS 메인보드 관련 소프트웨어 설치 후 ArmouryCrate.UserSessionHelper.exe 프로세스 무한 종료 현상
1  [2]  3  4  5  6  7  8  9  10  11  12  13  14  15  ...