Microsoft MVP성태의 닷넷 이야기
.NET Framework: 251. string.GetHashCode 는 hash 값을 cache 할까? [링크 복사], [링크+제목 복사]
조회: 10002
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
 

string.GetHashCode 는 hash 값을 cache 할까?

잊혀져 가는 GetHashCode 에 대한 자료들을 같이 소개도 할 겸,

순환참조와 XmlSerializer
; https://www.sysnet.pe.kr/2/0/751

Dictionary.Get(A) 대신 Dictionary.Get(A.GetHashCode()) 를 사용해서는 안되는 이유
; https://www.sysnet.pe.kr/2/0/889

이번에는 오늘 문득 코딩을 하다 궁금한 점이 있어서 그 결과를 써봅니다. (회사가 성능 관련 문제를 다루다 보니, 제가 만드는 코드 하나하나에 직업병이 생기더군요. ^^)

보통 GetHashCode 사용에 부담스러울 때가 있는데요. 바로, "문자열"에 대해 GetHashCode를 호출하는 경우일 것입니다. 왜냐하면, 해시값을 내기 위해 모든 문자를 열람하게 되기 때문에 문자열이 커질수록 속도에 영향을 미칠 수 있기 때문입니다.

그렇다면, Immutable 속성의 string 타입에서 GetHashCode 를 내부적으로 값을 cache 하고 있지 않을까요? 어떻게 생각하세요?

답은? Cache 하고 있지 않습니다. ".NET Reflector"를 이용하여 System.String.GetHashCode 의 코드를 살펴보면, 다음과 같이 매번 모든 문자열을 열람하는 것을 볼 수 있습니다.

public override unsafe int GetHashCode()
{
    fixed (char* str = ((char*) this))
    {
        char* chPtr = str;
        int num = 0x15051505;
        int num2 = num;
        int* numPtr = (int*) chPtr;
        for (int i = this.Length; i > 0; i -= 4)
        {
            num = (((num << 5) + num) + (num >> 0x1b)) ^ numPtr[0];
            if (i <= 2)
            {
                break;
            }
            num2 = (((num2 << 5) + num2) + (num2 >> 0x1b)) ^ numPtr[1];
            numPtr += 2;
        }
        return (num + (num2 * 0x5d588b65));
    }
}

그런데, 위에서 보니 재미있는 코드가 눈에 띕니다. 바로, 내부적으로 관리하는 char * 버퍼를 int * 로 형변환 해서 사용한다는 점입니다. 이 때문에 문자열 길이가 4byte 인 경우 루프를 4번 돌지 않고 1번 만에 처리해 버립니다. 오호~~~ 속도 향상을 위해 꽤나 고민한 흔적이 엿보입니다. ^^

그렇다면? C# 의 문자열은 최소 4byte 간격으로 메모리를 패딩하고 있음을 짐작하게 됩니다. 정말 그런지 확인해 볼까요?

C#을 실행하고 메모리 윈도우를 통해서 조사해 보면 알 수 있을 것입니다.

어디... 문자열이 "t" 값만을 갖고 있는 경우를 볼까요?

== "t" 인 경우 ===
74 00 00 00 00 00 00 80 28 ac 3a 00 01 00 00 00 71 00 00 00 00 00 00 00 00 00  t......€(¬:.....q.........
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00  

유니코드이기 때문에 내부적으로 "t" 값은 "74 00" 2바이트를 차지합니다. 그리고 C/C++ 에서의 "NULL" 표시를 위해 "0" 값을 사용하는데 이것 역시 2바이트를 차지하므로 사실상 "t" 한 글자를 표현하기 위해 "74 00 00 00" 과 같이 4바이트를 필요로 합니다.

그럼 이번에는 "te" 와 같이 두 글자로 늘여볼까요?

74 00 65 00 00 00 00 00 00 00 00 80 28 ac 3f 00 01 00 00 00 71 00 00 00 00 00  t.e........€(¬?.....q.....
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

"te"를 표현하기 위해 "74 00 65 00" 이 소모되었지만, 널 문자가 빠졌기 때문에 "00 00" 이 필요합니다. 하지만 4byte 정렬이기 때문에 사실상 "te" == "74 00 65 00 00 00 00 00"이 됩니다. 이렇게 판단할 수 있는 또 다른 근거로는, 그 이후에 "t"에서와 마찬가지로 "00 00 00 80" 값이 규칙적으로 나온다는 것을 관찰할 수 있기 때문입니다.

마지막으로 "test"로 해보면... 이제 결과를 예측할 수 있겠지요. ^^

74 00 65 00 73 00 74 00 00 00 00 00 00 00 00 80 28 ac 4d 00 08 00 00 00 71 00  t.e.s.t........€(¬M.....q.
77 00 65 00 72 00 74 00 65 00 73 00 74 00 00 00 00 00 00 00 00 00 00 00 00 00 

GetHashCode가 값을 Cache 하고 있는지를 알아보려다가... 어느새 String 의 내부 문자열 정렬을 알아보는 것 까지 와버렸군요. ^^

참고로, .NET 4.0 의 string.GetHashCode 를 외부로 빼서 구현해 보면 다음과 같습니다.

static unsafe void Main(string[] args)
{
    string txt = "tes";

    int hash1 = GetHashCode(txt);
    int hash2 = txt.GetHashCode();

    Console.WriteLine(hash1); // -175665545 (.NET 4.0 인 경우.)
    Console.WriteLine(hash2); // -175665545
    Console.WriteLine(hash1 == hash2); // True
}

static unsafe int GetHashCode(string txt)
{
    fixed (char* str = txt)
    {
        char* chPtr = str;
        int num = 0x15051505;
        int num2 = num;
        int* numPtr = (int*)chPtr;
        for (int i = txt.Length; i > 0; i -= 4)
        {
            num = (((num << 5) + num) + (num >> 0x1b)) ^ numPtr[0];
            if (i <= 2)
            {
                break;
            }
            num2 = (((num2 << 5) + num2) + (num2 >> 0x1b)) ^ numPtr[1];
            numPtr += 2;
        }

        return (num + (num2 * 0x5d588b65));
    }
}




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]





[최초 등록일: ]
[최종 수정일: 5/26/2012 ]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer@outlook.com

비밀번호

댓글 쓴 사람
 




1  2  3  4  [5]  6  7  8  9  10  11  12  13  14  15  ...
NoWriterDateCnt.TitleFile(s)
12279정성태7/29/2020249개발 환경 구성: 499. 닷넷에서 접근해보는 InterSystems의 Cache 데이터베이스파일 다운로드1
12278정성태8/2/2020238VS.NET IDE: 149. ("Binary was not built with debug information" 상태로) 소스 코드 디버깅이 안되는 경우
12277정성태8/2/2020373개발 환경 구성: 498. DEVPATH 환경 변수의 사용 예 - .NET Reflector의 (PDB 연결이 없는) DLL의 소스 코드 디버깅
12276정성태7/23/2020369.NET Framework: 930. 개발자를 위한 닷넷 어셈블리 바인딩 - DEVPATH 환경 변수
12275정성태7/28/2020321개발 환경 구성: 497. 닷넷에서 접근해보는 InterSystems의 IRIS Data Platform 데이터베이스파일 다운로드1
12274정성태7/21/2020347개발 환경 구성: 496. Azure - Blob Storage Account의 Location 이전 방법파일 다운로드1
12273정성태7/20/2020441개발 환경 구성: 495. Azure - Location이 다른 웹/DB 서버의 경우 발생하는 성능 하락
12272정성태7/16/2020282.NET Framework: 929. (StrongName의 버전 구분이 필요 없는) .NET Core 어셈블리 바인딩 규칙파일 다운로드1
12271정성태7/16/2020281.NET Framework: 928. .NET Framework의 Strong-named 어셈블리 바인딩 (2) - 런타임에 바인딩 리디렉션파일 다운로드1
12270정성태7/16/2020347오류 유형: 633. SSL_CTX_use_certificate_file - error:140AB18F:SSL routines:SSL_CTX_use_certificate:ee key too small
12269정성태7/16/2020240오류 유형: 632. .NET Core 웹 응용 프로그램 - The process was terminated due to an unhandled exception.
12268정성태7/15/2020283오류 유형: 631. .NET Core 웹 응용 프로그램 오류 - HTTP Error 500.35 - ANCM Multiple In-Process Applications in same Process
12267정성태7/15/2020412.NET Framework: 927. C# - 윈도우 프로그램에서 Credential Manager를 이용한 보안 정보 저장파일 다운로드1
12266정성태7/14/2020363오류 유형: 630. 사용자 계정을 지정해 CreateService API로 서비스를 등록한 경우 "Error 1069: The service did not start due to a logon failure." 오류발생
12265정성태7/10/2020232오류 유형: 629. Visual Studio - 웹 애플리케이션 실행 시 "Unable to connect to web server 'IIS Express'." 오류 발생
12264정성태7/9/2020308오류 유형: 628. docker: Error response from daemon: Conflict. The container name "..." is already in use by container "...".
12261정성태9/26/2020668VS.NET IDE: 148. 윈도우 10에서 .NET Core 응용 프로그램을 리눅스 환경에서 실행하는 2가지 방법 - docker, WSL 2 [5]
12260정성태7/8/2020292.NET Framework: 926. C# - ETW를 이용한 ThreadPool 스레드 감시파일 다운로드1
12259정성태7/8/2020236오류 유형: 627. nvlddmkm.sys의 BAD_POOL_HEADER BSOD 문제
12258정성태8/4/2020432기타: 77. DataDog APM 간략 소개
12257정성태7/7/2020280.NET Framework: 925. C# - ETW를 이용한 Monitor Enter/Exit 감시파일 다운로드1
12256정성태7/7/2020376.NET Framework: 924. C# - Reflection으로 변경할 수 없는 readonly 정적 필드 [4]
12255정성태7/6/2020313.NET Framework: 923. C# - ETW(Event Tracing for Windows)를 이용한 Finalizer 실행 감시파일 다운로드1
12254정성태7/2/2020232오류 유형: 626. git - REMOTE HOST IDENTIFICATION HAS CHANGED!
12253정성태7/2/2020395.NET Framework: 922. C# - .NET ThreadPool의 Local/Global Queue파일 다운로드1
12252정성태7/2/2020613.NET Framework: 921. C# - I/O 스레드를 사용한 비동기 소켓 서버/클라이언트파일 다운로드2
1  2  3  4  [5]  6  7  8  9  10  11  12  13  14  15  ...