Microsoft MVP성태의 닷넷 이야기
.NET Framework: 840. ML.NET 데이터 정규화 [링크 복사], [링크+제목 복사]
조회: 1004
글쓴 사람
홈페이지
첨부 파일

ML.NET 데이터 정규화

ML.NET으로 데이터 전처리 하는 방법은 다음의 글을 참고하시면 됩니다.

Prepare Data
; https://docs.microsoft.com/en-us/dotnet/machine-learning/how-to-guides/prepare-data-ml-net

현재(2019-05-28) NormalizationCatalog에서 제공하는 정규화 방법은 대략 다음과 같습니다.

  • NormalizeBinning
  • NormalizeGlobalContrast
  • NormalizeLogMeanVariance
  • NormalizeLpNorm
  • NormalizeMeanVariance
  • NormalizeMinMax
  • NormalizeSupervised?Binning

그런데, "기초 수학으로 이해하는 머신러닝 알고리즘" 책에 보면 z-score 정규화가 나오는데요.

표준 점수
; https://ko.wikipedia.org/wiki/%ED%91%9C%EC%A4%80_%EC%A0%90%EC%88%98

표준값 z는 원수치인 x가 평균에서 얼마나 떨어져 있는지를 나타낸다. 음수이면 평균이하, 양수이면 평균이상이다

이것과 매핑되는 ML.NET의 정규화는 없습니다. 이런 경우, ML.NET에 자연스럽게 녹여낼 수 있도록 사용자 정의 transformer 구현을 제공합니다.

How can I define my own transformation of data?
; https://github.com/dotnet/machinelearning/blob/master/docs/code/MlNetCookBook.md#user-content-how-can-i-define-my-own-transformation-of-data

그런데, 굳이 저렇게 해서 얻는 장점이 얼마나 많을까 싶습니다. 따라서 그냥 다음과 같이 로드된 데이터를 직접 처리해도 상관없겠습니다.

double[] xData = xyList.Select(xy => xy.X).ToArray();
xData = NormalizeZscore(xData);

private static double [] NormalizeZscore(double[] xData)
{
    double mean = Statistics.Mean(xData);
    double sd = Statistics.PopulationStandardDeviation(xData);

    double[] normalized = new double[xData.Length];

    for (int i = 0; i < xData.Length; i ++)
    {
        normalized[i] = (xData[i] - mean) / sd;
    }

    return normalized;
}

예를 들어 입력 데이터가 다음과 같을 때,

x,y
235,591
216,539
148,413
35,310
85,308
204,519
49,325
25,332
173,498
191,498
134,392
99,334
117,385
112,387
162,425
272,659
159,400
159,427
59,319
198,522

NormalizeZscore가 반환한 x 데이터의 min/max는 -1.7406785589738 ~ 1.94669368859505에 해당합니다. 그 외에, ML.NET의 정규화 관련 메서드를 수행해 보면,

using MathNet.Numerics.Statistics;
using Microsoft.ML;
using Microsoft.ML.Data;
using Microsoft.ML.Transforms;
using System;
using System.Collections.Generic;
using System.Linq;

class Program
{
    static void Main(string[] args)
    {
        MLContext ctx = new MLContext();

        IDataView data = ctx.Data.LoadFromTextFile<ClickData>("click.csv", separatorChar: ',', hasHeader: true);

        var xColumn = data.Schema[0];
        var yColumn = data.Schema[1];
        
        {
            Func<NormalizingEstimator> func = () => ctx.Transforms.NormalizeMeanVariance(xColumn.Name);
            ShowResult("NormalizeMeanVariance", ctx, data, func);
        }

        {
            Func<NormalizingEstimator> func = () => ctx.Transforms.NormalizeLogMeanVariance(xColumn.Name);
            ShowResult("NormalizeLogMeanVariance", ctx, data, func);
        }

        {
            Func<NormalizingEstimator> func = () => ctx.Transforms.NormalizeMinMax(xColumn.Name);
            ShowResult("NormalizeMinMax", ctx, data, func);
        }

        {
            var xData = data.GetColumn<double>(xColumn).NormalizeZscore();
            Console.WriteLine($"[NormalizeZscore] Min: {xData.Min()}, Max: {xData.Max()}");
        }
    }

    private static void ShowResult(string title, MLContext ctx, IDataView data, Func<NormalizingEstimator> func)
    {
        var transformer = func();
        ITransformer textTransformer = transformer.Fit(data);
        IDataView normalizedData = textTransformer.Transform(data);

        var xyList = ctx.Data.CreateEnumerable<ClickData>(normalizedData, false);
        var xData = xyList.Select(xy => xy.X);
        Console.WriteLine($"[{title}] Min: {xData.Min()}, Max: {xData.Max()}");
    }
}

public static class Extension
{
    public static IEnumerable<double> NormalizeZscore(this IEnumerable<double> data)
    {
        double mean = Statistics.Mean(data);
        double std = Statistics.PopulationStandardDeviation(data);

        foreach (var item in data)
        {
            yield return (item - mean) / std;
        }
    }
}

각각의 종류에 따라 다음과 같은 결과를 갖습니다.

[NormalizeMeanVariance] Min: 0.159596722144764, Max: 1.73641233693504
[NormalizeLogMeanVariance] Min: 0.00667093285901543, Max: 0.899555532449876
[NormalizeMinMax] Min: 0.0919117647058823, Max: 1

(첨부 파일은 이 글의 예제 코드를 포함합니다.)




참고로, Fit 호출 시 오류가 발생한다면?

Unhandled Exception: System.ArgumentOutOfRangeException: Wrong column type for column X. Expected: Single, Double, Vector of Single or Vector of Double. Got: Int32.
Parameter name: column
   at Microsoft.ML.Transforms.NormalizeTransform.LogMeanVarUtils.CreateBuilder(LogMeanVarianceColumnOptions column, IHost host, Int32 srcIndex, DataViewType srcType, DataViewRowCursor cursor)
   at Microsoft.ML.Transforms.NormalizingTransformer.Train(IHostEnvironment env, IDataView data, ColumnOptionsBase[] columns)
   at Program.Main(String[] args) in F:\ConsoleApp1\ConsoleApp1\Program.cs:line 18

해당 transformer의 대상 타입이 int가 들어왔는데 float, double, vector of float/double/vector 유형이어야만 하기 때문입니다. 따라서 정규화 대상이 되는 칼럼의 모델 타입을,

class ClickData
{
    [LoadColumn(0)]
    public int X { get; set; }

    [LoadColumn(1)]
    public int Y { get; set; }
}

다음과 같이 적절하게 변경하면 됩니다.

class ClickData
{
    [LoadColumn(0)]
    public double X { get; set; }

    [LoadColumn(1)]
    public int Y { get; set; }
}




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]





[최초 등록일: ]
[최종 수정일: 5/30/2019 ]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer@outlook.com

비밀번호

댓글 쓴 사람
 




... [16]  17  18  19  20  21  22  23  24  25  26  27  28  29  30  ...
NoWriterDateCnt.TitleFile(s)
11844정성태5/22/20192268개발 환경 구성: 434. Visual Studio 2019 - 리눅스 프로젝트를 이용한 공유/실행(so/out) 프로그램 개발 환경 설정 [1]파일 다운로드1
11843정성태3/14/20191233기타: 75. MSDN 웹 사이트를 기본으로 영문 페이지로 열고 싶다면?
11842정성태5/3/20191250개발 환경 구성: 433. 마이크로소프트의 CoreCLR 프로파일러 예제를 Visual Studio CMake로 빌드하는 방법 [1]파일 다운로드1
11841정성태3/13/20191073VS.NET IDE: 132. Visual Studio 2019 - CMake의 컴파일러를 기본 g++에서 clang++로 변경
11840정성태3/13/20191133오류 유형: 526. 윈도우 10 Ubuntu App 환경에서는 USB 외장 하드 접근 불가
11839정성태3/12/20191611디버깅 기술: 124. .NET Core 웹 앱을 호스팅하는 Azure App Services의 프로세스 메모리 덤프 및 windbg 분석 개요 [2]
11838정성태5/9/20192356.NET Framework: 811. (번역글) .NET Internals Cookbook Part 1 - Exceptions, filters and corrupted processes [1]파일 다운로드1
11837정성태10/14/20197203기타: 74. 도서: 시작하세요! C# 7.3 프로그래밍 [10]
11836정성태10/12/20191801오류 유형: 525. Visual Studio 2019 Preview 4/RC - C# 8.0 Missing compiler required member 'System.Range..ctor' [1]
11835정성태3/5/20191918.NET Framework: 810. C# 8.0의 Index/Range 연산자를 .NET Framework에서 사용하는 방법 및 비동기 스트림의 컴파일 방법 [1]파일 다운로드1
11834정성태3/4/20191382개발 환경 구성: 432. Visual Studio 없이 최신 C# (8.0) 컴파일러를 사용하는 방법
11833정성태5/14/20191767개발 환경 구성: 431. Visual Studio 2019 - CMake를 이용한 공유/실행(so/out) 리눅스 프로젝트 설정파일 다운로드1
11832정성태3/4/20191364오류 유형: 524. Visual Studio CMake - rsync: connection unexpectedly closed
11831정성태3/4/20191109오류 유형: 523. Visual Studio 2019 - 새 창으로 뜬 윈도우를 닫을 때 비정상 종료
11830정성태2/26/20191022오류 유형: 522. 이벤트 로그 - Error opening event log file State. Log will not be processed. Return code from OpenEventLog is 87.
11829정성태12/12/20191206개발 환경 구성: 430. 마이크로소프트의 CoreCLR 프로파일러 예제 빌드 방법 - 리눅스 환경 [1]
11828정성태2/26/20192415개발 환경 구성: 429. Component Services 관리자의 RuntimeBroker 설정이 2개 있는 경우
11827정성태2/26/20191585오류 유형: 521. Visual Studio - Could not start the 'rsync' command on the remote host, please install it using your system package manager.
11826정성태2/26/20191239오류 유형: 520. 우분투에 .NET Core SDK 설치 시 패키지 의존성 오류
11825정성태2/25/20193335개발 환경 구성: 428. Visual Studio 2019 - CMake를 이용한 리눅스 빌드 환경 설정 [1]
11824정성태2/25/20191783오류 유형: 519. The SNMP Service encountered an error while accessing the registry key SYSTEM\CurrentControlSet\Services\SNMP\Parameters\TrapConfiguration. [1]
11823정성태2/21/20191228오류 유형: 518. IIS 관리 콘솔이 뜨지 않는 문제
11822정성태2/20/20191194오류 유형: 517. docker에 설치한 MongoDB 서버로 연결이 안 되는 경우
11821정성태2/20/20191349오류 유형: 516. Visual Studio 2019 - This extension uses deprecated APIs and is at risk of not functioning in a future VS update. [1]
11820정성태2/20/20193838오류 유형: 515. 윈도우 10 1809 업데이트 후 "User Profiles Service" 1534 경고 발생
11819정성태2/20/20191656Windows: 158. 컴퓨터와 사용자의 SID(security identifier) 확인 방법
... [16]  17  18  19  20  21  22  23  24  25  26  27  28  29  30  ...