Microsoft MVP성태의 닷넷 이야기
.NET Framework: 251. string.GetHashCode 는 hash 값을 cache 할까? [링크 복사], [링크+제목 복사]
조회: 9995
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
 

string.GetHashCode 는 hash 값을 cache 할까?

잊혀져 가는 GetHashCode 에 대한 자료들을 같이 소개도 할 겸,

순환참조와 XmlSerializer
; https://www.sysnet.pe.kr/2/0/751

Dictionary.Get(A) 대신 Dictionary.Get(A.GetHashCode()) 를 사용해서는 안되는 이유
; https://www.sysnet.pe.kr/2/0/889

이번에는 오늘 문득 코딩을 하다 궁금한 점이 있어서 그 결과를 써봅니다. (회사가 성능 관련 문제를 다루다 보니, 제가 만드는 코드 하나하나에 직업병이 생기더군요. ^^)

보통 GetHashCode 사용에 부담스러울 때가 있는데요. 바로, "문자열"에 대해 GetHashCode를 호출하는 경우일 것입니다. 왜냐하면, 해시값을 내기 위해 모든 문자를 열람하게 되기 때문에 문자열이 커질수록 속도에 영향을 미칠 수 있기 때문입니다.

그렇다면, Immutable 속성의 string 타입에서 GetHashCode 를 내부적으로 값을 cache 하고 있지 않을까요? 어떻게 생각하세요?

답은? Cache 하고 있지 않습니다. ".NET Reflector"를 이용하여 System.String.GetHashCode 의 코드를 살펴보면, 다음과 같이 매번 모든 문자열을 열람하는 것을 볼 수 있습니다.

public override unsafe int GetHashCode()
{
    fixed (char* str = ((char*) this))
    {
        char* chPtr = str;
        int num = 0x15051505;
        int num2 = num;
        int* numPtr = (int*) chPtr;
        for (int i = this.Length; i > 0; i -= 4)
        {
            num = (((num << 5) + num) + (num >> 0x1b)) ^ numPtr[0];
            if (i <= 2)
            {
                break;
            }
            num2 = (((num2 << 5) + num2) + (num2 >> 0x1b)) ^ numPtr[1];
            numPtr += 2;
        }
        return (num + (num2 * 0x5d588b65));
    }
}

그런데, 위에서 보니 재미있는 코드가 눈에 띕니다. 바로, 내부적으로 관리하는 char * 버퍼를 int * 로 형변환 해서 사용한다는 점입니다. 이 때문에 문자열 길이가 4byte 인 경우 루프를 4번 돌지 않고 1번 만에 처리해 버립니다. 오호~~~ 속도 향상을 위해 꽤나 고민한 흔적이 엿보입니다. ^^

그렇다면? C# 의 문자열은 최소 4byte 간격으로 메모리를 패딩하고 있음을 짐작하게 됩니다. 정말 그런지 확인해 볼까요?

C#을 실행하고 메모리 윈도우를 통해서 조사해 보면 알 수 있을 것입니다.

어디... 문자열이 "t" 값만을 갖고 있는 경우를 볼까요?

== "t" 인 경우 ===
74 00 00 00 00 00 00 80 28 ac 3a 00 01 00 00 00 71 00 00 00 00 00 00 00 00 00  t......€(¬:.....q.........
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00  

유니코드이기 때문에 내부적으로 "t" 값은 "74 00" 2바이트를 차지합니다. 그리고 C/C++ 에서의 "NULL" 표시를 위해 "0" 값을 사용하는데 이것 역시 2바이트를 차지하므로 사실상 "t" 한 글자를 표현하기 위해 "74 00 00 00" 과 같이 4바이트를 필요로 합니다.

그럼 이번에는 "te" 와 같이 두 글자로 늘여볼까요?

74 00 65 00 00 00 00 00 00 00 00 80 28 ac 3f 00 01 00 00 00 71 00 00 00 00 00  t.e........€(¬?.....q.....
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

"te"를 표현하기 위해 "74 00 65 00" 이 소모되었지만, 널 문자가 빠졌기 때문에 "00 00" 이 필요합니다. 하지만 4byte 정렬이기 때문에 사실상 "te" == "74 00 65 00 00 00 00 00"이 됩니다. 이렇게 판단할 수 있는 또 다른 근거로는, 그 이후에 "t"에서와 마찬가지로 "00 00 00 80" 값이 규칙적으로 나온다는 것을 관찰할 수 있기 때문입니다.

마지막으로 "test"로 해보면... 이제 결과를 예측할 수 있겠지요. ^^

74 00 65 00 73 00 74 00 00 00 00 00 00 00 00 80 28 ac 4d 00 08 00 00 00 71 00  t.e.s.t........€(¬M.....q.
77 00 65 00 72 00 74 00 65 00 73 00 74 00 00 00 00 00 00 00 00 00 00 00 00 00 

GetHashCode가 값을 Cache 하고 있는지를 알아보려다가... 어느새 String 의 내부 문자열 정렬을 알아보는 것 까지 와버렸군요. ^^

참고로, .NET 4.0 의 string.GetHashCode 를 외부로 빼서 구현해 보면 다음과 같습니다.

static unsafe void Main(string[] args)
{
    string txt = "tes";

    int hash1 = GetHashCode(txt);
    int hash2 = txt.GetHashCode();

    Console.WriteLine(hash1); // -175665545 (.NET 4.0 인 경우.)
    Console.WriteLine(hash2); // -175665545
    Console.WriteLine(hash1 == hash2); // True
}

static unsafe int GetHashCode(string txt)
{
    fixed (char* str = txt)
    {
        char* chPtr = str;
        int num = 0x15051505;
        int num2 = num;
        int* numPtr = (int*)chPtr;
        for (int i = txt.Length; i > 0; i -= 4)
        {
            num = (((num << 5) + num) + (num >> 0x1b)) ^ numPtr[0];
            if (i <= 2)
            {
                break;
            }
            num2 = (((num2 << 5) + num2) + (num2 >> 0x1b)) ^ numPtr[1];
            numPtr += 2;
        }

        return (num + (num2 * 0x5d588b65));
    }
}




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]





[최초 등록일: ]
[최종 수정일: 5/26/2012 ]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer@outlook.com

비밀번호

댓글 쓴 사람
 




1  2  3  4  5  6  7  8  9  10  11  12  13  [14]  15  ...
NoWriterDateCnt.TitleFile(s)
12051정성태12/2/20191812개발 환경 구성: 462. 시작하자마자 비정상 종료하는 프로세스의 메모리 덤프 - procdump [1]
12050정성태9/24/20201152Windows: 165. AcLayers의 API 후킹과 FaultTolerantHeap
12049정성태11/13/2019826.NET Framework: 868. (닷넷 프로세스를 대상으로) 디버거 방식이 아닌 CLR Profiler를 이용해 procdump.exe 기능 구현
12048정성태9/24/20201194Windows: 164. GUID 이름의 볼륨에 해당하는 파티션을 찾는 방법
12047정성태11/12/20191855Windows: 163. 안전하게 eject시킨 USB 장치를 물리적인 재연결 없이 다시 인식시키는 방법
12046정성태11/9/2019974오류 유형: 577. windbg - The call to LoadLibrary(...\sos.dll) failed, Win32 error 0n193
12045정성태10/27/2019780오류 유형: 576. mstest.exe 실행 시 "Visual Studio Enterprise is required to execute the test." 오류 - 두 번째 이야기
12044정성태10/27/2019964오류 유형: 575. mstest.exe - System.Resources.MissingSatelliteAssemblyException: The satellite assembly named "Microsoft.VisualStudio.ProductKeyDialog.resources.dll, ..."
12043정성태10/27/20191044오류 유형: 574. Windows 10 설치 시 오류 - 0xC1900101 - 0x4001E
12042정성태10/26/2019983오류 유형: 573. OneDrive 하위에 위치한 Documents, Desktop 폴더에 대한 권한 변경 시 "Unable to display current owner"
12041정성태10/23/2019793오류 유형: 572. mstest.exe - The load test results database could not be opened.
12040정성태10/23/20191234오류 유형: 571. Unhandled Exception: System.Net.Mail.SmtpException: Transaction failed. The server response was: 5.2.0 STOREDRV.Submission.Exception:SendAsDeniedException.MapiExceptionSendAsDenied
12039정성태10/22/2019904스크립트: 16. cmd.exe의 for 문에서는 ERRORLEVEL이 설정되지 않는 문제
12038정성태10/17/2019726오류 유형: 570. SQL Server 2019 RC1 - SQL Client Connectivity SDK 설치 오류
12037정성태10/15/20191217.NET Framework: 867. C# - Encoding.Default 값을 바꿀 수 있을까요?파일 다운로드1
12036정성태10/21/20192113.NET Framework: 866. C# - 고성능이 필요한 환경에서 GC가 발생하지 않는 네이티브 힙 사용파일 다운로드1
12035정성태10/13/20191082개발 환경 구성: 461. C# 8.0의 #nulable 관련 특성을 .NET Framework 프로젝트에서 사용하는 방법파일 다운로드1
12034정성태1/31/20201359개발 환경 구성: 460. .NET Core 환경에서 (프로젝트가 아닌) C# 코드 파일을 입력으로 컴파일하는 방법 [1]
12033정성태10/19/20202075개발 환경 구성: 459. .NET Framework 프로젝트에서 C# 8.0/9.0 컴파일러를 사용하는 방법
12032정성태11/25/20191313.NET Framework: 865. .NET Core 2.2/3.0 웹 프로젝트를 IIS에서 호스팅(Inproc, out-of-proc)하는 방법 - AspNetCoreModuleV2 소개
12031정성태10/7/2019770오류 유형: 569. Azure Site Extension 업그레이드 시 "System.IO.IOException: There is not enough space on the disk" 예외 발생
12030정성태11/12/20192708.NET Framework: 864. .NET Conf 2019 Korea - "닷넷 17년의 변화 정리 및 닷넷 코어 3.0" 발표 자료 [1]파일 다운로드1
12029정성태9/27/2019949제니퍼 .NET: 29. Jennifersoft provides a trial promotion on its APM solution such as JENNIFER, PHP, and .NET in 2019 and shares the examples of their application.
12028정성태9/26/20191089.NET Framework: 863. C# - Thread.Suspend 호출 시 응용 프로그램 hang 현상을 해결하기 위한 시도파일 다운로드1
12027정성태9/26/2019677오류 유형: 568. Consider app.config remapping of assembly "..." from Version "..." [...] to Version "..." [...] to solve conflict and get rid of warning.
12026정성태9/26/20191032.NET Framework: 862. C# - Active Directory의 LDAP 경로 및 정보 조회
1  2  3  4  5  6  7  8  9  10  11  12  13  [14]  15  ...