Microsoft MVP성태의 닷넷 이야기
.NET Framework: 433. C# - 간단한 HyperLogLog 자료 구조 테스트 [링크 복사], [링크+제목 복사],
조회: 24788
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일

C# - 간단한 HyperLogLog 자료 구조 테스트

재미있는 글이 하나 소개되었습니다. ^^

확률적 자료구조를 이용한 추정 - 유일한 원소 개수(Cardinality) 추정과 HyperLogLog 
; https://d2.naver.com/helloworld/711301

위의 글에 나온대로 "HyperLogLog는 매우 적은 메모리로 집합의 원소 개수를 추정할 수 있는 방법"입니다. 물론, 적은 메모리라는 장점을 위해 "정확성"을 희생하는 식인데요. 사실, '정확성'이 그다지 중요하지 않을때가 생각보다 많기 때문에 응용할 곳은 제법 많습니다.

예를 들어, 구글의 검색어에 대한 예상 결과 수를 보여주는 기능이 바로 그러한 사례 중의 하나입니다.

http://www.google.com/webhp?complete=1&hl=en 검색에 관해서
; https://www.sysnet.pe.kr/2/0/96

"ebay" 검색어를 포함한 웹 페이지 수가 10,000개로 대략 나오든지, 아니면 11,382개라고 정확하게 나오든지 사용자에게 크게 영향을 주는 것은 아닙니다. 하지만, 구현하는 입장에서 볼 때 그걸 정확하게 구하기 위해서는 적지 않은 오버헤드가 수반될 수 있습니다.




이론적인 설명은 "확률적 자료구조를 이용한 추정 - 유일한 원소 개수(Cardinality) 추정과 HyperLogLog" 글에서 너무나 잘해주고 있으므로 여기서는 C#으로 간단하게 실습하는 것을 소개하겠습니다.

일단, 검색해 보면 이미 ^^ C# 구현체가 있으니 이걸 사용하겠습니다.

HyperLogLog C# implementation 
; http://adnan-korkmaz.blogspot.kr/2012/06/hyperloglog-c-implementation.html

또한, 유일한 단어 수를 계산하는 것 대신 전체가 유일 항목임을 보증하는 임의의 GUID 수를 생성해서 테스트 해보았습니다.

HyperLogLog log = new HyperLogLog(0.01);
HashSet<string> dict = new HashSet<string>();

for (int i = 0; i < 100; i++)
{ 
    string txt = Guid.NewGuid().ToString();

    log.Add(txt);

    bool result = dict.Contains(txt);
    if (result == false)
    {
        dict.Add(txt);
    }
}

Console.WriteLine("CountFromHash: " + dict.Count());
Console.WriteLine("CountFromHyperLogLog: " + log.Count());

// 출력결과
CountFromHash: 100
CountFromHyperLogLog: 100

일단, 100개로 시작했을 때 HashSet으로 하든 HyperLogLog로 하든 계산된 수는 100으로 동일했습니다. 단지, 가끔 특정 GUID 조합에서는 Hash 코드가 치우치는 탓인지 HyperLogLog의 경우 98~99를 출력하기도 합니다.

수를 늘리면 점차로 차이가 뚜렷해지기 시작합니다.

==== 10,000개인 경우 ====

CountFromHash: 10000
CountFromHyperLogLog: 9976

==== 100,000개인 경우 ====

CountFromHash: 100000
CountFromHyperLogLog: 100638

100000000까지 늘리면 이제 (x64에서조차도) HashSet으로는 Out of memory로 인해 더 이상 테스트가 되지 않습니다. 반면 HyperLogLog에서는 놀라운 메모리 사용량을 보여줍니다.

==== 100,000,000개인 경우 ====

CountFromHash: OOM 발생
CountFromHyperLogLog: 101648822 (메모리 사용량: 4.8MB)

게다가 오차도 0.01%수준으로 괜찮은 정확도를 보여줍니다.

한 가지 재미있는 것이 있다면, HyperLogLog.Add 메서드에 전달된 object 인자를 별도의 getHashCode 메서드를 이용해 구한다는 것입니다.

public static uint getHashCode(string text)
{
    uint hash = 0;

    for (int i = 0, l = text.Length; i < l; i++)
    {
        hash += (uint)text[i];
        hash += hash << 10;
        hash ^= hash >> 6;
    }
    hash += hash << 3;
    hash ^= hash >> 6;
    hash += hash << 16;

    return hash;
}

이것을 .NET Framework의 Object.GetHashCode()로 치환해도 결과가 거의 비슷했습니다.

public static uint getHashCode(string text)
{
    return (uint)text.GetHashCode();
}

참고로, Hash 코드를 구하는 것에는 정답이 없습니다. 아래의 글에서도 이야기했었지만,

괜찮은 문자열 해시 함수?
; https://www.sysnet.pe.kr/2/0/1222

해시 함수는, 결국 해당 '업무 도메인'에서 사용되는 문자열 셋이 다르기 때문에 (가능하다면) 그에 따른 적절한 테스트를 해보고 선택하시는 것이 좋습니다.


(첨부 파일은 이 글의 테스트 코드를 포함하고 있습니다.)





[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]







[최초 등록일: ]
[최종 수정일: 7/25/2022]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 




... 61  62  63  64  65  66  67  68  69  70  71  72  73  [74]  75  ...
NoWriterDateCnt.TitleFile(s)
12086정성태12/20/201921015디버깅 기술: 144. windbg - Marshal.FreeHGlobal에서 발생한 덤프 분석 사례
12085정성태12/20/201919013오류 유형: 586. iisreset - The data is invalid. (2147942413, 8007000d) 오류 발생 - 두 번째 이야기 [1]
12084정성태12/19/201919432디버깅 기술: 143. windbg/sos - Hashtable의 buckets 배열 내용을 모두 덤프하는 방법 (do_hashtable.py) [1]
12083정성태12/17/201922383Linux: 27. linux - lldb를 이용한 .NET Core 응용 프로그램의 메모리 덤프 분석 방법 [2]
12082정성태12/17/201920593오류 유형: 585. lsof: WARNING: can't stat() fuse.gvfsd-fuse file system
12081정성태12/16/201922456개발 환경 구성: 465. 로컬 PC에서 개발 중인 ASP.NET Core 웹 응용 프로그램을 다른 PC에서도 접근하는 방법 [5]
12080정성태12/16/201919612.NET Framework: 870. C# - 프로세스의 모든 핸들을 열람
12079정성태12/13/201921509오류 유형: 584. 원격 데스크톱(rdp) 환경에서 다중 또는 고용량 파일 복사 시 "Unspecified error" 오류 발생
12078정성태12/13/201921342Linux: 26. .NET Core 응용 프로그램을 위한 메모리 덤프 방법 [3]
12077정성태12/13/201920396Linux: 25. 자주 실행할 명령어 또는 초기 환경을 "~/.bashrc" 파일에 등록
12076정성태12/12/201918948디버깅 기술: 142. Linux - lldb 환경에서 sos 확장 명령어를 이용한 닷넷 프로세스 디버깅 - 배포 방법에 따른 차이
12075정성태12/11/201919750디버깅 기술: 141. Linux - lldb 환경에서 sos 확장 명령어를 이용한 닷넷 프로세스 디버깅
12074정성태12/10/201919448디버깅 기술: 140. windbg/Visual Studio - 값이 변경된 경우를 위한 정지점(BP) 설정(Data Breakpoint)
12073정성태12/10/201920932Linux: 24. Linux/C# - 실행 파일이 아닌 스크립트 형식의 명령어를 Process.Start로 실행하는 방법
12072정성태12/9/201917699오류 유형: 583. iisreset 수행 시 "No such interface supported" 오류
12071정성태12/9/201921237오류 유형: 582. 리눅스 디스크 공간 부족 및 safemode 부팅 방법
12070정성태12/9/201923169오류 유형: 581. resize2fs: Bad magic number in super-block while trying to open /dev/.../root
12069정성태12/2/201919567디버깅 기술: 139. windbg - x64 덤프 분석 시 메서드의 인자 또는 로컬 변수의 값을 확인하는 방법
12068정성태11/28/201928233디버깅 기술: 138. windbg와 Win32 API로 알아보는 Windows Heap 정보 분석 [3]파일 다운로드2
12067정성태11/27/201919642디버깅 기술: 137. 실제 사례를 통해 Debug Diagnostics 도구가 생성한 닷넷 웹 응용 프로그램의 성능 장애 보고서 설명 [1]파일 다운로드1
12066정성태11/27/201919293디버깅 기술: 136. windbg - C# PInvoke 호출 시 마샬링을 담당하는 함수 분석 - OracleCommand.ExecuteReader에서 OpsSql.Prepare2 PInvoke 호출 분석
12065정성태11/25/201917602디버깅 기술: 135. windbg - C# PInvoke 호출 시 마샬링을 담당하는 함수 분석파일 다운로드1
12064정성태11/25/201920529오류 유형: 580. HTTP Error 500.0/500.33 - ANCM In-Process Handler Load Failure
12063정성태11/21/201919460디버깅 기술: 134. windbg - RtlReportCriticalFailure로부터 parameters 정보 찾는 방법
12062정성태11/21/201918921디버깅 기술: 133. windbg - CoTaskMemFree/FreeCoTaskMem에서 발생한 덤프 분석 사례 - 두 번째 이야기
12061정성태11/20/201919374Windows: 167. CoTaskMemAlloc/CoTaskMemFree과 윈도우 Heap의 관계
... 61  62  63  64  65  66  67  68  69  70  71  72  73  [74]  75  ...