Microsoft MVP성태의 닷넷 이야기
.NET Framework: 296. 괜찮은 문자열 해시함수? - 두 번째 이야기 [링크 복사], [링크+제목 복사],
조회: 21049
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
(연관된 글이 2개 있습니다.)

괜찮은 문자열 해시 함수? - 두 번째 이야기

이전 이야기에 대해서 더 할 이야기가 생겼군요. ^^

괜찮은 문자열 해시 함수?
; https://www.sysnet.pe.kr/2/0/1222

아무래도 무작위 문자열을 고르는 것이 테스트의 신뢰도를 떨어뜨리는 것 같고, 저 역시 좀 더 현실적인 테스트가 있으면 좋지 않을까 생각해서 이번엔 문제를 좀 골라봤습니다.

파일을 4개를 만들었는데요.

  • 영문 성경 텍스트 파일 (http://ebible.org/web/index.htm)
  • 한글 성경 텍스트 파일 (http://jwch.net/bbs/board.php?bo_table=util&wr_id=30)
  • C# 소스 코드 파일 (All-In-One Code Framework의 소스 파일)
  • 크롬 소스 코드 파일 중에서 50MB 분량만 취합

정말 x65599 해시의 경우 '영문 성격 텍스트 파일'의 경우에 아무런 충돌도 없었습니다. 하지만... 완벽한 해시가 어디있겠습니까? ^^ '한글 성경'에서는 충돌이 발생하더군요.

암튼... 테스트는 5가지 해시 방식에 대해서 진행했습니다.

  • x65599: http://www.gamedevforever.com/50 글에서 가져온 해시 코드
  • x65599 (마지막 shift 제거): "x65599" 코드 중에서 마지막 return 문에서 hash 값을 그대로 반환하도록 수정
  • 0xEDB88320: 지난번 글에서 소개한 0xEDB88320
  • 0xEDB8832F: 0xEDB88320의 값에 '0x0F'를 더한 숫자를 사용
  • .NET 4.0 GetHashCode: .NET 4.0의 string 타입에서 기본 제공되는 GetHashCode 사용

텍스트 파일이 사실 크기만 컸지, 고유 단어수를 계산해 보면 375,719 밖에 되지 않았기에 '현실(?)'을 많이 반영한 것 같지는 않지만 테스트를 아니한 것보다는 나으므로 ^^ 그냥 진행을 했습니다.

결과는...? 다음과 같습니다.

전체 워드 수: 375,719

x65599: 
    * 걸린 시간 9,573 ms
    * 충돌: 39 (0.0104 %)

x65599 (마지막 shift 제거):
    * 걸린 시간 9,309 ms
    * 충돌: 22 (0.0059 %)

0xEDB88320:
    * 걸린 시간 9,897 ms
    * 충돌 81,139 (21.5957%)

0xEDB8832F:
    * 걸린 시간 9,442 ms
    * 충돌 16 (0.0043%)

.NET 4.0 GetHashCode:
    * 걸린 시간 9,546 ms
    * 충돌 34 (0.0090%)

재미있는 결과가 나왔습니다.

  • 지난번의 무작위 테스트를 훌륭하게 통과한 0xEDB88320 값이 이번에는 20%가 넘는 충돌을 보임.
  • x65599는 여전히 shift 구문을 제거한 반환문이 더 빠르고 충돌도 낮음.

0xEDB88320 값이 저를 실망시키는군요. ^^; 오히려, 별다른 기대 없이 0xF 값을 더한 0xEDB8832F 숫자를 이용한 해시가 좋은 결과를 보여주고 있습니다. (이래서... 해시 코드는 해당 업무 도메인에 대한 문자열 셋으로 테스트가 필요한 것입니다. ^^)

그렇다면, 여기서 1등을 한 "0xEDB8832F"와 "shift 없는 x65599"에 대해서 지난번 글의 무작위 문자열 테스트 결과를 비교해 보면 어떨까요?

총 단어수 162,539,696

shift 제거한 hash
    * 걸린 시간 50,091 ms
    * 충돌 20,820,228 (12%)

0xEDB8832F:
    * 걸린 시간 53,372 ms
    * 충돌 2,807,510 (1.73%)

비록 0xEDB8832F 해시 함수가 0xEDB88320에 비해서 충돌이 더 발생하긴 했지만, '텍스트 파일' 실험의 결과와 종합해 보면 더욱 우수하기 때문에 용서가 됩니다.

아래는 이렇게 해서 최종적으로 만들어진 0xEDB88320 해시 함수입니다.

static int hash4(string word)
{
    uint hash = 0;
    int len = word.Length;
    int ch = 0;

    unchecked
    {
        uint poly = 0xEDB8832F;
        for (int i = 0; i < len; i++)
        {
            hash = (hash << 1) | (hash >> (32 - 1));

            ch = word[i];
            hash = (uint)(poly * hash + ch);
        }
    }

    return (int)hash;
}

역시 이번에도 여러분이 테스트를 할 수 있도록 소스 코드와 데이터 파일을 첨부했습니다.




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]






[최초 등록일: ]
[최종 수정일: 7/10/2021]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 



2012-01-20 12시25분
꿀보("http://blog.naver.com/gloryo") 님의 정보에 의하면 x65599 방식이 윈도우 XP 부터 기본 지원되는 방식이라고 합니다. 실제로 찾아보니 RtlHashUnicodeString 의 도움말에서 HASH_STRING_ALGORITHM_X65599 옵션을 볼 수 있고 그것이 기본값이라고 설명되어 있습니다.

RtlHashUnicodeString routine
; http://msdn.microsoft.com/en-us/library/windows/hardware/ff561915(v=vs.85).aspx

와~~~ x65599 해쉬가 꽤나 유명한 것이었군요. ^^
정성태

... 16  17  18  19  20  21  22  23  24  25  26  27  28  [29]  30  ...
NoWriterDateCnt.TitleFile(s)
12925정성태1/17/20227603개발 환경 구성: 627. AKS의 준비 단계 - ACR(Azure Container Registry)에 docker 이미지 배포
12924정성태1/15/20229137.NET Framework: 1134. C# - ffmpeg(FFmpeg.AutoGen)를 이용한 비디오 디코딩 예제(decode_video.c) [2]파일 다운로드1
12923정성태1/15/20228000개발 환경 구성: 626. ffmpeg.exe를 사용해 비디오 파일을 MPEG1 포맷으로 변경하는 방법
12922정성태1/14/20227092개발 환경 구성: 625. AKS - Azure Kubernetes Service 생성 및 SLO/SLA 변경 방법
12921정성태1/14/20226009개발 환경 구성: 624. Docker Desktop에서 별도 서버에 설치한 docker registry에 이미지 올리는 방법
12920정성태1/14/20226783오류 유형: 786. Camtasia - An error occurred with the camera: Failed to Add Video Sampler.
12919정성태1/13/20226643Windows: 199. Host Network Service (HNS)에 의해서 점유되는 포트
12918정성태1/13/20226866Linux: 47. WSL - shell script에서 설정한 환경 변수가 스크립트 실행 후 반영되지 않는 문제
12917정성태1/12/20225987오류 유형: 785. C# - The type or namespace name '...' could not be found (are you missing a using directive or an assembly reference?)
12916정성태1/12/20225797오류 유형: 784. TFS - One or more source control bindings for this solution are not valid and are listed below.
12915정성태1/11/20226073오류 유형: 783. Visual Studio - We didn't find any interpreters
12914정성태1/11/20228105VS.NET IDE: 172. 비주얼 스튜디오 2022의 파이선 개발 환경 지원
12913정성태1/11/20228590.NET Framework: 1133. C# - byte * (바이트 포인터)를 FileStream으로 쓰는 방법 [1]
12912정성태1/11/20229275개발 환경 구성: 623. ffmpeg.exe를 사용해 비디오 파일의 이미지를 PGM(Portable Gray Map) 파일 포맷으로 출력하는 방법 [1]
12911정성태1/11/20226454VS.NET IDE: 171. 비주얼 스튜디오 - 더 이상 만들 수 없는 "ASP.NET Core 3.1 Web Application (.NET Framework)" 프로젝트
12910정성태1/10/20226976제니퍼 .NET: 30. 제니퍼 닷넷 적용 사례 (8) - CPU high와 DB 쿼리 성능에 문제가 함께 있는 사이트
12909정성태1/10/20228349오류 유형: 782. Visual Studio 2022 설치 시 "Couldn't install Microsoft.VisualCpp.Redist.14.Latest"
12908정성태1/10/20226155.NET Framework: 1132. C# - ref/out 매개변수의 IL 코드 처리
12907정성태1/9/20226713오류 유형: 781. (youtube-dl.exe) 실행 시 "This app can't run on your PC" / "Access is denied." 오류 발생
12906정성태1/9/20227363.NET Framework: 1131. C# - 네임스페이스까지 동일한 타입을 2개의 DLL에서 제공하는 경우 충돌을 우회하는 방법 [1]파일 다운로드1
12905정성태1/8/20227008오류 유형: 780. Could not load file or assembly 'Microsoft.VisualStudio.TextTemplating.VSHost.15.0, Version=16.0.0.0, Culture=neutral, PublicKeyToken=b03f5f7f11d50a3a' or one of its dependencies.
12904정성태1/8/20229006개발 환경 구성: 623. Visual Studio 2022 빌드 환경을 위한 github Actions 설정 [1]
12903정성태1/7/20227621.NET Framework: 1130. C# - ELEMENT_TYPE_INTERNAL 유형의 사용 예
12902정성태1/7/20227640오류 유형: 779. SQL 서버 로그인 에러 - provider: Shared Memory Provider, error: 0 - No process is on the other end of the pipe.
12901정성태1/5/20227678오류 유형: 778. C# - .NET 5+에서 warning CA1416: This call site is reachable on all platforms. '...' is only supported on: 'windows' 경고 발생
12900정성태1/5/20229345개발 환경 구성: 622. vcpkg로 ffmpeg를 빌드하는 경우 생성될 구성 요소 제어하는 방법
... 16  17  18  19  20  21  22  23  24  25  26  27  28  [29]  30  ...