Microsoft MVP성태의 닷넷 이야기
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
 
(연관된 글이 6개 있습니다.)
Dictionary.Get(A) 대신 Dictionary.Get(A.GetHashCode())를 사용해서는 안 되는 이유


최근에 "Jeffrey Richter"가 쓴 "CLR via C#" (송기수 MVP 님이 번역하신 바로 그 책! 3rd edition이 새롭게 나왔다는 데 이번에도 송기수 님이 번역하셨으면 좋겠습니다. ^^) 책을 보다가 다음과 같은 문구가 들어왔습니다.

"
System.ValueType의 GetHashCode 메서드는 내부적으로 리플렉션과 인스턴스 필드들 중 일부 필드의 값을 XOR 연산을 사용하여 구하도록 되어 있다.
"



위와 같이 언급하기 이전에 GetHashCode에 대한 코드 예제를 하나 제공하고 있는데요. 아래와 같습니다.

internal sealed class Point
{
    private Int32 m_x, m_y;
    public override Int32 GetHashCode()
    {
        return m_x ^ m_y;    
    }
    ...
}

위의 코드는 "참조" 타입이라는 점이 다르고, 또한 CLR에서 System.ValueType의 GetHashCode를 위와 같이 구현되어 있다는 식의 이야기는 없었습니다. 그런데... 여기서 문득 호기심이 생기더군요. ^^ 정말 CLR에서도 위와 같이 구현했을까?




간단한 테스트를 해보면 알 수 있는 문제였습니다. 위에서 제시된 Point.GetHashCode의 구현을 보면 한가지 오류를 직관적으로 발견할 수 있습니다. 즉, m_x와 m_y 값이 서로 바뀐 상태라고 해도 같은 해시 코드값이 나온다는 점입니다. 어떤 구현에서는 값이 바뀌어도 크게 문제가 없을 수도 있지만 분명 문제가 되는 경우도 많습니다. 예를 들자면,

struct GeoLocation
{
    public int Latitude; // 편의상 int로 정의
    public int Longitude;
}

명확하지요. ^^ 지리 좌표가 앞 뒤 값이 바뀌는 것은 용서가 안되는 경우입니다.

자, 그럼 CLR이 정말 단순히 값형식의 경우에 필드값을 XOR해서 구한 것일까요?

GeoLocation t = new GeoLocation();
t.Latitude = 5;
t.Longitude = 6;

int hash1 = t.GetHashCode();  // 결괏값: 373079212 (CLR 2.0 기준)
int hash2 = (int)t.Latitude ^ (int)t.Longitude; // 결괏값: 3

아하... 꼭 그렇지는 않군요. 어떤 다른 변수가 있는 것 같습니다. 일단 그것까지는 관심이 없고.

이제 필드의 값 순서를 바꿔서 해시를 구해볼까요?

GeoLocation t1 = new GeoLocation();
t1.Latitude = 5;
t1.Longitude = 6;

GeoLocation t2 = new GeoLocation();
t2.Latitude = 6;
t2.Longitude = 5;

int hash1 = t1.GetHashCode();  // 결괏값: 373079212
int hash2 = t2.GetHashCode();  // 결괏값: 373079212

이런 ... ^^ 값이 같습니다.

여기서 갑자기 의문이 생겼습니다. GetHashCode를 직접적으로 사용하는 Hashtable과 같은 타입은 키가 같은 데이터가 2번 Add되지 못하도록 합니다. 실제로 아래와 같은 코드는 System.ArgumentException 예외가 발생합니다.

var dict = new Hashtable();
dict.Add(t1, 1);
dict.Add(t1, 2); // System.ArgumentException 예외 발생

그렇다면 다음의 구문도 예외가 발생할까요?

var dict = new Hashtable();
dict.Add(t1, 1);  // t1.GetHashCode == 373079212
dict.Add(t2, 2);  // t2.GetHashCode == 373079212

발생하지 않습니다. 이유는? Hashtable.Insert 메서드를 검사해 보니 GetHashCode 값이 같은 경우에 한해서 이전에 있던 데이터와 새로운 데이터의 Equals 메서드를 호출해서 값이 같은지를 비교하는 코드가 더 추가되어 있었습니다. 즉, t1과 t2가 같지 않으니 해시값은 같지만 인정하고 포함을 시켜주는 것입니다.

확인을 위해 GeoLocation의 Equals 메서드를 다음과 같이 재정의하면, 여지없이 예외가 발생합니다.

struct GeoLocation
{
    public override bool Equals(object obj)
    {
        return obj.GetHashCode() == this.GetHashCode();
    }
}

var dict = new Hashtable();
dict.Add(t1, 1);  // t1.GetHashCode == 373079212
dict.Add(t2, 2);  // t2.GetHashCode == 373079212 // System.ArgumentException 예외 발생




그럼, 제목에서 제시한 이유가 명확해 졌습니다. 위와 같은 이유 때문에, GetHashCode를 Dictionary 타입에 전달할 키로 사용해서는 안되는 것입니다. 사실, 그동안 무심코 써왔던 GetHashCode인데... 이제는 좀 상황을 가려가면서 써야 겠습니다. ^^

그건 그렇고.

그렇다면, 위와 같은 경우에 유일성을 보장하기 위해서 어떻게 GetHashCode를 재정의하는 것이 좋을까요?

애석하게도 이 질문은 잘못되었습니다. "유일성을 보장"하는 것은 욕심이고, "가능한 유일성을 보장"하는 것이 맞습니다. 다들 아시는 것처럼 다양한 정보를 가진 개체가 단지 4byte의 정수값으로 유일성을 보장받는다는 것은 애당초 불가능합니다. 단적으로 아무리 이상적으로 Hash 값을 구하는 경우라 하더라도 UInt32.MaxValue를 넘게 포함하는 데이터에는 무조건 중복이 될 수밖에 없습니다.

즉, 충돌을 감안해야 하고 대신에 이를 해결하기 위해 Equals만 제대로 정의해주면 Hashtable 등의 Dictionary 타입을 사용하는 데에는 (충돌된 해시값을 가진 데이터 검색 시간으로 속도저하가 될 지언정) 문제가 되지 않습니다. 나아가서, 여러분들이 임의로 Hashtable 등의 타입을 만들어준다면 해당 데이터의 GetHashCode만을 사용해서는 안되고 반드시 Equals 검증을 거쳐서 해시값 충돌을 해결해 줘야 합니다.

그래도, 가능하면 충돌을 적게 하는 것이 좋겠지요. ^^
이것은 GetHashCode 계산을 해야하는 값의 업무 도메인 영역마다 틀릴 수 있는 문제입니다. 만약 필드의 앞/뒤값이 틀린 것에 대해서 서로 다른 해시값을 사용하고 싶다면 다음과 같은 식으로 필드마다 일정한 SHIFT 연산을 한 후 XOR 연산을 하는 것도 방법일 수 있습니다.

Make Types Hashable with GetHashCode()
; http://www.c-sharpcorner.com/uploadfile/freebookarticles/samspublishing/2010mar24003215am/VersatileTypes/5.aspx

위의 방법도 사실 정답이 아닐 수 있는데, 오히려 비트 연산하기 전에는 충돌이 안 나던 "경우의 수"가 이제는 충돌이 발생할 수 있기 때문입니다. 다시 원점으로 돌아가서, 그냥 충돌은 인정하고 Equals를 기대하는 것이 맞습니다. 물론, 시간적인 여유가 된다면 가능한 적게 충돌이 나도록 적절한 알고리즘을 업무 도메인 영역에서 충분한 테스트를 거친 후 선택할 수 있다면 좋은 정도겠죠!



[이 토픽에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]






[최초 등록일: ]
[최종 수정일: 7/10/2021]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 



2010-07-07 05시26분
[땡초] 역시 완소 정보입니다용^^
[guest]

... 106  [107]  108  109  110  111  112  113  114  115  116  117  118  119  120  ...
NoWriterDateCnt.TitleFile(s)
11249정성태7/12/201718518오류 유형: 410. LoadLibrary("[...].dll") failed - The specified procedure could not be found.
11248정성태7/12/201725026오류 유형: 409. pip install pefile - 'cp949' codec can't decode byte 0xe2 in position 208687: illegal multibyte sequence
11247정성태7/12/201719348오류 유형: 408. SqlConnection 객체 생성 시 무한 대기 문제파일 다운로드1
11246정성태7/11/201718115VS.NET IDE: 118. Visual Studio - 다중 폴더에 포함된 파일들에 대한 "Copy to Output Directory"를 한 번에 설정하는 방법
11245정성태7/10/201723737개발 환경 구성: 321. Visual Studio Emulator for Android 소개 [2]
11244정성태7/10/201723293오류 유형: 407. Visual Studio에서 ASP.NET Core 실행할 때 dotnet.exe 프로세스의 -532462766 오류 발생 [1]
11243정성태7/10/201719977.NET Framework: 666. dotnet.exe - 윈도우 운영체제에서의 .NET Core 버전 찾기 규칙
11242정성태7/8/201720265제니퍼 .NET: 27. 제니퍼 닷넷 적용 사례 (7) - 노후된 스토리지 장비로 인한 웹 서비스 Hang (멈춤) 현상
11241정성태7/8/201719004오류 유형: 406. Xamarin 빌드 에러 XA5209, APT0000
11240정성태7/7/201721933.NET Framework: 665. ClickOnce를 웹 브라우저를 이용하지 않고 쿼리 문자열을 전달하면서 실행하는 방법 [3]파일 다운로드1
11239정성태7/6/201723404.NET Framework: 664. Protocol Handler - 웹 브라우저에서 데스크톱 응용 프로그램을 실행하는 방법 [5]파일 다운로드1
11238정성태7/6/201720916오류 유형: 405. NT 서비스 시작 시 "Error 1067: The process terminated unexpectedly." 오류 발생 [2]
11237정성태7/5/201722572.NET Framework: 663. C# - PDB 파일 경로를 PE 파일로부터 얻는 방법파일 다운로드1
11236정성태7/4/201725807.NET Framework: 662. C# - VHD/VHDX 가상 디스크를 마운트하지 않고 파일을 복사하는 방법파일 다운로드1
11235정성태6/29/201719957Math: 20. Matlab/Octave로 Gram-Schmidt 정규 직교 집합 구하는 방법
11234정성태6/29/201717302오류 유형: 404. SharePoint 2013 설치 과정에서 "The username is invalid The account must be a valid domain account" 오류 발생
11233정성태6/28/201717201오류 유형: 403. SharePoint Server 2013을 Windows Server 2016에 설치할 때 .NET 4.5 설치 오류 발생
11232정성태6/28/201718209Windows: 144. Windows Server 2016에 Windows Identity Extensions을 설치하는 방법
11231정성태6/28/201718835디버깅 기술: 86. windbg의 mscordacwks DLL 로드 문제 - 세 번째 이야기 [1]
11230정성태6/28/201718006제니퍼 .NET: 26. 제니퍼 닷넷 적용 사례 (6) - 잦은 Recycle 문제
11229정성태6/27/201719225오류 유형: 402. Windows Server Backup 관리 콘솔이 없어진 경우
11228정성태6/26/201716712개발 환경 구성: 320. Visual Basic .NET 프로젝트에서 내장 Manifest 자원을 EXE 파일로부터 제거하는 방법파일 다운로드1
11227정성태6/19/201724455개발 환경 구성: 319. windbg에서 python 스크립트 실행하는 방법 - pykd [6]
11226정성태6/19/201716326오류 유형: 401. Microsoft Edge를 실행했는데 입력 반응이 없는 경우
11225정성태6/19/201715625오류 유형: 400. Outlook - The required file ExSec32.dll cannot be found in your path. Install Microsoft Outlook again.
11224정성태6/13/201718122.NET Framework: 661. Json.NET의 DeserializeObject 수행 시 속성 이름을 동적으로 바꾸는 방법파일 다운로드1
... 106  [107]  108  109  110  111  112  113  114  115  116  117  118  119  120  ...