Microsoft MVP성태의 닷넷 이야기
글쓴 사람
홈페이지
첨부 파일

MathNet을 이용한 간단한 통계 정보 처리 - 분산/표준편차

C# - MathNet.Numerics의 Matrix(행렬) 연산
; https://www.sysnet.pe.kr/2/0/11910

MathNET + OxyPlot을 이용한 간단한 통계 정보 처리 - Histogram
; https://www.sysnet.pe.kr/2/0/11916

이번엔 MathNet의 분산과 표준편차를 위한 메서드를 보겠습니다.

List<double> dblHeights = LoadData("data.txt");

// dblHeights == 32 27 29 34 33라고 가정

Console.WriteLine($"# of data: {dblHeights.Count}"); // 31

Console.WriteLine($"MathNet - Variance: {Statistics.Variance(dblHeights)}"); // 8.5
Console.WriteLine($"MathNet - Standard Deviation: {Statistics.StandardDeviation(dblHeights)}"); // 2.91547594742265

그런데 값이 좀 이상합니다. 위의 분산값은 8.5라고 나오는데, 실제로 계산해 보면 6.8이기 때문입니다. (분산이 틀리니 표준편차 값도 당연히 틀립니다.) 이유는 간단합니다. Variance와 StandardDeviation 메서드는 통계의 "모집단(population)에 대한 분산/표준편차"가 아니라 "표본(sample)에 대한 분산/표준편차"를 출력해 주는 것이고 표본의 경우 Bessel's correction을 고려한 값을 반환하도록 되어 있습니다.

엑셀(Excel)을 해보신 분은 알겠지만 엑셀에서도 다음의 2가지 분산/표준편차 함수가 제공됩니다.

VAR.S       표본에 대한 분산
STDDEV.S    표본에 대한 표준편차

VAR.P       모집단에 대한 분산
STDDEV.P    모집단에 대한 표준편차

* S는 Sample, P는 Population을 의미

C# 코드로 분산을 구현하면 이렇게 작성할 수 있습니다.

public static double Variance(double[] samples, double mean, bool useBesselCorrection)
{
    if (samples.Length <= ((useBesselCorrection == true) ? 1 : 0))
    {
        return double.NaN;
    }

    double sum = 0;

    for (int i = 0; i < samples.Length; i++)
    {
        double diff = samples[i] - mean;
        sum += (diff * diff);
    }

    double variance = sum / ((samples.Length - ((useBesselCorrection == true) ? 1 : 0)));
    return variance;
}

통계학의 기본을 알지 못하면 어찌 보면 말장난 같기도 합니다. 모집단에 대한 분산을 구할 때는 samples.Length로 나누고, 표본에 대한 분산을 구할 때는 samples.Length - 1을 하게 됩니다. 즉, 동일한 데이터를 samples 배열에 넣어 전달해도 그것이 모집단(전체 집합)의 데이터냐, 부분 샘플에 대한 데이터냐에 따라 결과가 달리 나오는 것입니다. (참고: https://blog.naver.com/dalsapcho/20147545698, 개인적으로 이 글에서 "개념 정리"에 나온 그림이 마음에 듭니다. ^^)




그런데 Math.NET의 분산을 구하는 코드가 재미있습니다.

/*
Estimates the unbiased population variance from the provided samples as unsorted array. 
On a dataset of size N will use an N-1 normalizer (Bessel's correction). 
Returns NaN if data has less than two entries or if any entry is NaN. 
*/
public static double Variance(double[] samples)
{
    if (samples.Length <= 1)
    {
        return double.NaN;
    }
    double num = 0.0;
    double num2 = samples[0];
    for (int i = 1; i < samples.Length; i++)
    {
        num2 += samples[i];
        double num4 = ((i + 1) * samples[i]) - num2;
        num += (num4 * num4) / ((i + 1.0) * i);
    }
    return (num / ((double) (samples.Length - 1))); // 표본 분산이므로.
}

제가 만든 C# 분산 코드와 위의 분산을 구하는 코드가 다릅니다. 하지만 (double 연산의 특성으로 소수점 2자리부터 차이가 발생하지만) 결과는 같습니다. 왜 저렇게 어렵게 분산을 구하는 것일까요? 이유가 멋집니다. 제가 작성했던 코드는 2-pass인 반면, Math.NET의 코드는 1-pass입니다. 다시 말해, 제가 작성한 코드는 평균값을 알고 있어야 하는데 그 평균을 구하기 위해 미리 한번 전체 데이터에 대한 루프를 돌아야 하지만, Math.NET의 코드는 평균값을 알지 못해도 분산을 구할 수 있는 것입니다.

물론, 평균값을 이미 구했다면 2-pass 코드가 분산을 더 빠르게 구할 수 있습니다. 사실... 통계값을 구한다면 대부분의 경우 평균은 기본적으로 구할 것이므로 현실적으로 효용성이 있느냐는 별개의 문제로 보입니다. ^^




참고로 Math.NET에서 모집단에 대한 분산/표준편차를 구하려면 Population이 붙은 메서드를 사용하면 됩니다.

Console.WriteLine($"MathNet - Variance: {Statistics.PopulationVariance(dblHeights)}");
Console.WriteLine($"MathNet - Standard Deviation: {Statistics.PopulationStandardDeviation(dblHeights)}");

또한 구현 코드 역시 Bessel's correction의 차이에 따라 "-1" 교정이 없는 버전의 동일한 코드로 제공됩니다.

/*
Evaluates the population variance from the full population provided as unsorted array. 
On a dataset of size N will use an N normalizer and would thus be biased if applied to a subset. 
Returns NaN if data is empty or if any entry is NaN.
*/
public static double PopulationVariance(double[] population)
{
    if (population.Length == 0)
    {
        return double.NaN;
    }
    double num = 0.0;
    double num2 = population[0];
    for (int i = 1; i < population.Length; i++)
    {
        num2 += population[i];
        double num4 = ((i + 1) * population[i]) - num2;
        num += (num4 * num4) / ((i + 1.0) * i);
    }
    return (num / ((double) population.Length));
}

(첨부 파일은 이 글의 예제 코드를 포함합니다.)




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]





[최초 등록일: ]
[최종 수정일: 5/24/2019 ]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer@outlook.com

비밀번호

댓글 쓴 사람
 




1  2  3  4  5  6  7  8  9  10  11  12  13  14  [15]  ...
NoWriterDateCnt.TitleFile(s)
11858정성태3/27/20191276VC++: 129. EXE를 LoadLibrary로 로딩해 PE 헤더에 있는 EntryPoint를 직접 호출하는 방법파일 다운로드1
11857정성태3/26/20191349VC++: 128. strncpy 사용 시 주의 사항(Linux / Windows)
11856정성태3/25/20191172VS.NET IDE: 134. 마이크로소프트의 CoreCLR 프로파일러 리눅스 예제를 Visual Studio F5 원격 디버깅하는 방법 [1]파일 다운로드1
11855정성태3/25/20191660개발 환경 구성: 436. 페이스북 HTTPS 인증을 localhost에서 테스트하는 방법
11854정성태3/25/2019885VS.NET IDE: 133. IIS Express로 호스팅하는 사이트를 https로 접근하는 방법
11853정성태3/24/20191185개발 환경 구성: 435. 존재하지 않는 IP 주소에 대한 Dns.GetHostByAddress/gethostbyaddr/GetNameInfoW 실행이 느리다면? - 두 번째 이야기
11852정성태3/20/20191279개발 환경 구성: 434. 존재하지 않는 IP 주소에 대한 Dns.GetHostByAddress/gethostbyaddr/GetNameInfoW 실행이 느리다면?파일 다운로드1
11851정성태3/19/20191488Linux: 8. C# - 리눅스 환경에서 DllImport 대신 라이브러리 동적 로드 처리
11850정성태3/18/20191094.NET Framework: 813. C# async 메서드에서 out/ref/in 유형의 인자를 사용하지 못하는 이유
11849정성태3/18/20191642.NET Framework: 812. pscp.exe 기능을 C#으로 제어하는 방법파일 다운로드1
11848정성태3/17/2019999스크립트: 14. 윈도우 CMD - 파일이 변경된 경우 파일명을 변경해 복사하고 싶다면?
11847정성태3/17/20191751Linux: 7. 리눅스 C/C++ - 공유 라이브러리 동적 로딩 후 export 함수 사용 방법파일 다운로드1
11846정성태3/15/20191547Linux: 6. getenv, setenv가 언어/운영체제마다 호환이 안 되는 문제
11845정성태3/15/20192047Linux: 5. Linux 응용 프로그램의 (C++) so 의존성 줄이기(ReleaseMinDependency) [3]
11844정성태5/22/20192016개발 환경 구성: 434. Visual Studio 2019 - 리눅스 프로젝트를 이용한 공유/실행(so/out) 프로그램 개발 환경 설정 [1]파일 다운로드1
11843정성태3/14/20191086기타: 75. MSDN 웹 사이트를 기본으로 영문 페이지로 열고 싶다면?
11842정성태5/3/20191095개발 환경 구성: 433. 마이크로소프트의 CoreCLR 프로파일러 예제를 Visual Studio CMake로 빌드하는 방법 [1]파일 다운로드1
11841정성태3/13/2019921VS.NET IDE: 132. Visual Studio 2019 - CMake의 컴파일러를 기본 g++에서 clang++로 변경
11840정성태3/13/2019992오류 유형: 526. 윈도우 10 Ubuntu App 환경에서는 USB 외장 하드 접근 불가
11839정성태3/12/20191428디버깅 기술: 124. .NET Core 웹 앱을 호스팅하는 Azure App Services의 프로세스 메모리 덤프 및 windbg 분석 개요 [2]
11838정성태5/9/20192119.NET Framework: 811. (번역글) .NET Internals Cookbook Part 1 - Exceptions, filters and corrupted processes [1]파일 다운로드1
11837정성태10/14/20196836기타: 74. 도서: 시작하세요! C# 7.3 프로그래밍 [10]
11836정성태10/12/20191584오류 유형: 525. Visual Studio 2019 Preview 4/RC - C# 8.0 Missing compiler required member 'System.Range..ctor' [1]
11835정성태3/5/20191739.NET Framework: 810. C# 8.0의 Index/Range 연산자를 .NET Framework에서 사용하는 방법 및 비동기 스트림의 컴파일 방법 [1]파일 다운로드1
11834정성태3/4/20191208개발 환경 구성: 432. Visual Studio 없이 최신 C# (8.0) 컴파일러를 사용하는 방법
11833정성태5/14/20191535개발 환경 구성: 431. Visual Studio 2019 - CMake를 이용한 공유/실행(so/out) 리눅스 프로젝트 설정파일 다운로드1
1  2  3  4  5  6  7  8  9  10  11  12  13  14  [15]  ...