Microsoft MVP성태의 닷넷 이야기
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
(연관된 글이 1개 있습니다.)

ML.NET Model Builder - 회귀(Regression), 다중 분류(Multi-class classification) 예제

지난번에 설명한,

Visual Studio - ML.NET Model Builder 소개
; https://www.sysnet.pe.kr/2/0/11894

예제는 간단한 2진 분류였는데요, 지난 튜토리얼의 마지막 단계까지 가면,

ML.NET Tutorial - Get started in 10 minutes
; https://dotnet.microsoft.com/learn/machinelearning-ai/ml-dotnet-get-started-tutorial/next

이제 또 다른 시나리오를 실습해 보라면서 "Price prediction dataset" 예제 파일을 링크하고 있습니다.

Price prediction dataset
; https://raw.githubusercontent.com/dotnet/machinelearning-samples/master/samples/csharp/getting-started/Regression_TaxiFarePrediction/TaxiFarePrediction/Data/taxi-fare-train.csv

혹시 당황하셨다면 ^^ 완벽한 예제 코드로 정리된 다음의 문서를 보면 됩니다.

dotnet/machinelearning-samples
; https://github.com/dotnet/machinelearning-samples/tree/master/samples/csharp/getting-started/Regression_TaxiFarePrediction




그러니까 결국 문제는 Model Builder를 사용할 때 어떤 종류의 기계학습에 대한 시나리오가 맞는지 선택하는 것입니다.

  1. 회귀
  2. 분류 - {2진 분류, 다중 분류}

일단, 2진 분류는 결과가 Yes/No로 나온다는 점에서 기준이 매우 간단합니다. 그리고 회귀와 다중 분류의 경우는 결과가 학습 데이터의 "Label"로 제한된 것이라면 다중 분류, 그렇지 않고 연속 공간에서 나오는 것이라면 회귀라고 간단하게 정리할 수 있습니다.

따라서, 이번 주제인 "택시 요금 예측(Taxi Fare Prediction)"은 결괏값이 연속 공간이므로 회귀에 해당합니다. 그럼 Model Builder를 간단하게 사용할 수 있겠죠. ^^

1. Scenario
    Price Prediction

2. Data
    Input: File
    Select a file: taxi-fare-train.csv
    Column to Predict (Label): fare_amount

3. Train
    Time to train (seconds): 10

MLModel.zip 파일이 생성되었으면 이전 글과 동일하게 다음의 작업을 추가하고,

1) Install-Package Microsoft.ML
   Install-Package Microsoft.ML.FastTree
2) MLModel.zip 추가 -  "Copy to Output Directory" - "Copy if newer"
3) ModelInput.cs, ModelOutput.cs 추가

예측 코드를 작성하면 됩니다.

using System;
using Microsoft.ML;
using ConsoleApp1ML.Model.DataModels;

class Program
{
    static void Main(string[] args)
    {
        MLContext mlContext = new MLContext();

        ITransformer mlModel = mlContext.Model.Load("MLModel.zip", out DataViewSchema inputSchema);
        var predEngine = mlContext.Model.CreatePredictionEngine<ModelInput, ModelOutput>(mlModel);

        // Create sample data to do a single prediction with it 
        ModelInput sampleData = new ModelInput
        {
            Vendor_id = "VTS",
            Rate_code = 1.0f,
            Passenger_count = 1,
            Trip_time_in_secs = 1140,
            Trip_distance = 3.75f,
            Payment_type = "CRD",
        };

        // Try a single prediction
        ModelOutput result = predEngine.Predict(sampleData);

        Console.WriteLine($"Single Prediction --> Predicted value: {result.Score}");
    }
}

/* 출력 결과
Single Prediction --> Predicted value: 15.95807
*/




이렇게 해서 "2진 분류"와 "회귀"에 대한 예제를 살펴봤는데요. "다중 분류"도 마저 살펴보겠습니다. 다중 분류의 가장 유명한 사례가 바로 붓꽃 판정입니다.

Iris Data Set 
; https://archive.ics.uci.edu/ml/datasets/iris

즉, 결괏값이 택시 요금 예측과 같이 연속 공간이 아니라, 데이터 파일 자체에 포함된 Label(붓꽃 데이터의 경우 class) 집합으로 한정되기 때문에 "다중 분류" 시나리오가 됩니다.

그럼 Python 예제만 있는 붓꽃 분류를 ^^ C# ML.NET으로 해보겠습니다.

우선, 위의 사이트에서 다운로드한 iris.data는 CSV 형식의 파일이지만 아쉽게도 칼럼 정보가 없습니다. 대신 iris.names 파일을 보면 다음과 같이 속성 정보가 있으니,

1. sepal length in cm 
2. sepal width in cm 
3. petal length in cm 
4. petal width in cm 
5. class: 
 -- Iris Setosa 
 -- Iris Versicolour 
 -- Iris Virginica

이를 참고해 iris.data의 첫 행에 다음과 같이 칼럼 정보를 넣고 파일명을 .csv를 붙여 저장합니다.

sepal_length,sepal_width,petal_length,petal_width,class
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
...[생략]...

끝입니다 이제 Model Builder를 실행해 다음과 같은 설정으로 자동 코드를 생성하고,

1. Scenario
    Custom Scenario

2. Data
    Input: File
    Select a file: iris.data.csv
    Column to Predict (Label): class

3. Train
    Machine learning task: multiclass-classification
    Time to train (seconds): 10

자동 코드가 생성되었으면 역시 우리의 응용 프로그램 프로젝트에 다음과 같은 설정을 한 후,

1) Install-Package Microsoft.ML
2) MLModel.zip 추가 -  "Copy to Output Directory" - "Copy if newer"
3) ModelInput.cs, ModelOutput.cs 추가

간단하게 붓꽃 판정 코드를 만들 수 있습니다. ^^

using ConsoleApp1ML.Model.DataModels;
using Microsoft.ML;
using System;

namespace ConsoleApp2
{
    class Program
    {
        static void Main(string[] args)
        {
            MLContext mlContext = new MLContext();

            ITransformer mlModel = mlContext.Model.Load("MLModel.zip", out DataViewSchema inputSchema);
            var predEngine = mlContext.Model.CreatePredictionEngine<ModelInput, ModelOutput>(mlModel);

            ModelInput sampleData = new ModelInput
            {
                Sepal_length = 5,
                Sepal_width = 2.9f,
                Petal_length = 1,
                Petal_width = 0.2f,
            };

            ModelOutput predictionResult = predEngine.Predict(sampleData);

            Console.WriteLine($"Single Prediction --> Predicted value: {predictionResult.Prediction} | Predicted scores: [{String.Join(",", predictionResult.Score)}]");
        }
    }
}

/* 출력 결과
Single Prediction --> Predicted value: Iris-setosa | Predicted scores: [0.8280767,0.1602236,0.01169968]
*/

엄청 쉽죠? ^^

(첨부 파일은 이 글의 예제 코드를 포함합니다.)




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]






[최초 등록일: ]
[최종 수정일: 5/12/2019]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 




... 46  47  48  49  [50]  51  52  53  54  55  56  57  58  59  60  ...
NoWriterDateCnt.TitleFile(s)
12396정성태11/3/20208415VS.NET IDE: 152. Visual Studio - "Tools" / "External Tools..."에 등록된 외부 명령어에 대한 단축키 설정 방법
12395정성태11/3/20209737오류 유형: 677. SSMS로 DB 접근 시 The server principal "..." is not able to access the database "..." under the current security context.
12394정성태11/3/20208155오류 유형: 676. cacls - The Recycle Bin on ... is corrupted. Do you want to empty the Recycle Bin for this drive?
12393정성태11/3/20208652오류 유형: 675. Visual Studio - 닷넷 응용 프로그램 디버깅 시 Disassembly 창에서 BP 설정할 때 "Error while processing breakpoint." 오류
12392정성태11/2/202012761.NET Framework: 959. C# 9.0 - (9) 레코드(Records) [4]파일 다운로드1
12390정성태11/1/202011031디버깅 기술: 173. windbg - System.Configuration.ConfigurationErrorsException 예외 분석 방법
12389정성태11/1/202010769.NET Framework: 958. C# 9.0 - (8) 정적 익명 함수 (static anonymous functions)파일 다운로드1
12388정성태10/29/202010223오류 유형: 674. 어느 순간부터 닷넷 응용 프로그램 실행 시 System.Configuration.ConfigurationErrorsException 예외가 발생한다면?
12387정성태10/28/202011009.NET Framework: 957. C# - static 필드의 정보가 GC Heap에 저장될까요? [3]파일 다운로드1
12386정성태10/28/202011254Linux: 34. 사용자 정보를 함께 출력하는 리눅스의 ps 명령어 사용 방법
12385정성태10/28/20209072오류 유형: 673. openssl - req: No value provided for Subject Attribute CN, skipped
12384정성태10/27/202010274오류 유형: 672. AllowPartiallyTrustedCallers 특성이 적용된 어셈블리의 struct 멤버 메서드를 재정의하면 System.Security.VerificationException 예외 발생
12383정성태10/27/202011162.NET Framework: 956. C# 9.0 - (7) 패턴 일치 개선 사항(Pattern matching enhancements) [3]파일 다운로드1
12382정성태10/26/20208888오류 유형: 671. dotnet build - The local source '...' doesn't exist
12381정성태10/26/202010548VC++: 137. C++ stl map의 사용자 정의 타입을 key로 사용하는 방법 [1]파일 다운로드1
12380정성태10/26/20207971오류 유형: 670. Visual Studio - Squash_FailureCommitsReset
12379정성태10/21/202010972.NET Framework: 955. .NET 메서드의 Signature 바이트 코드 분석 [1]파일 다운로드2
12378정성태10/15/202010389.NET Framework: 954. C# - x86/x64 환경에 따라 달라지는 P/Invoke 함수의 export 이름파일 다운로드1
12377정성태10/15/202011684디버깅 기술: 172. windbg - 파일 열기 시점에 bp를 걸어 파일명 알아내는 방법(Managed/Unmanaged)
12376정성태10/15/20208400오류 유형: 669. windbg - sos의 name2ee 명령어 실행 시 "Failed to request module list." 오류
12375정성태10/15/20209782Windows: 177. 윈도우 탐색기에서 띄우는 cmd.exe 창의 디렉터리 구분 문자가 'Yen(&#0165;)' 기호로 나오는 경우 [1]
12374정성태10/14/202014397.NET Framework: 953. C# 9.0 - (6) 함수 포인터(Function pointers) [1]파일 다운로드2
12373정성태10/14/20209686.NET Framework: 952. OpCodes.Box와 관련해 IL 형식으로 직접 코딩 시 유의할 점
12372정성태10/13/202011499.NET Framework: 951. C# 9.0 - (5) 로컬 함수에 특성 지정 가능(Attributes on local functions)파일 다운로드1
12371정성태10/13/202010284개발 환경 구성: 519. Visual Studio의 Ctrl+Shift+U (Edit.MakeUppercase) 단축키가 동작하지 않는 경우
12370정성태10/13/202011183Linux: 33. Linux - nmcli를 이용한 고정 IP 설정
... 46  47  48  49  [50]  51  52  53  54  55  56  57  58  59  60  ...