Microsoft MVP성태의 닷넷 이야기
Math: 57. C# - 해석학적 방법을 이용한 최소 자승법 [링크 복사], [링크+제목 복사]
조회: 1701
글쓴 사람
홈페이지
첨부 파일

C# - 해석학적 방법을 이용한 최소 자승법

다음의 글에 보면,

최소자승법 이해와 다양한 활용예 (Least Square Method)
; https://darkpgmr.tistory.com/56

최소 자승법(최소 제곱법)의 풀이로 대수적 방법과 해석학적 방법이 있다고 하는데요. 대수적 방법은 지난번에 설명했으니, 이번엔 해석학적 방법을 알아보겠습니다. (보다 더 자세한 설명은 "기초 수학으로 이해하는 머신러닝 알고리즘" 책을 참고하시고 여기서는 간략하게 넘어가겠습니다.)

그러니까, 결국 중요한 것은 데이터를 근사하는 방정식의,

fθ(x) = θ0 + θ1x

매개변수 값(θ0, θ1)을 정하는 것입니다. 이를 위해 데이터와의 오차를 계산하는 목적함수에 대해,



각각의 매개변수(θ0, θ1)로 편미분한 도함수를 다음과 같이 정리할 수 있습니다.




도함수가 정해졌으니, 이제 목적함수의 최솟값을 구하기 위해 경사하강법을 사용할 수 있고,

C# - 그래프 그리기로 알아보는 경사 하강법의 최소/최댓값 구하기
; https://www.sysnet.pe.kr/2/0/11923

따라서 도함수의 부호에 따라 매개변수를 근사하는 식은 다음과 같이 정리가 됩니다.




끝났군요. ^^ 이제 위의 동작을 코드로 잘 옮겨주면 연산이 진행될수록 θ0, θ1 값들은 근사한 1차 방정식의 모습을 갖추게 될 것입니다.




말이 좀 어려운데, 사실 코드로 보면 그다지 어렵지 않습니다. ^^

using MathNet.Numerics.Random;
using Microsoft.ML;
using Microsoft.ML.Data;
using PLplot;
using System;
using System.Collections.Generic;
using System.Linq;
using Microsoft.ML.Data;

class Program
{
    static void Main(string[] args)
    {
        MLContext ctx = new MLContext();

        IDataView data = ctx.Data.LoadFromTextFile<ClickData>("click.csv", separatorChar: ',', hasHeader: true);

        // 표준화
        var xyList = ctx.Data.CreateEnumerable<ClickData>(data, false).NormalizeZscore();

        // 매개변수 초기화
        double theta0 = SystemRandomSource.Default.NextDouble();
        double theta1 = SystemRandomSource.Default.NextDouble();

        // 예측 함수
        Func<double, double> f = (x) => theta0 + theta1 * x;

        // 목적 함수
        Func<double, double, double> errorFunc = (x, y) => Math.Pow((y - f(x)), 2);
        Func<IEnumerable<ClickData>, double> E = (list) => 0.5 * list.ForEach((e) => errorFunc(e.X, e.Y)).Sum();

        // 학습률
        double ETA = 1e-03;

        // 오차의 차분
        double diff = 1.0;

        // 갱신 횟수
        int count = 0;

        // 오차의 차분이 0.01 이하가 될 때까지 매개변수 갱신을 반복
        double error = E(xyList);

        while (diff > 1e-02)
        {
            // 갱신 결과를 임시 변수에 저장
            double tmp_theta0 = theta0 - ETA * xyList.ForEach((e) => f(e.X) - e.Y).Sum();
            double tmp_theta1 = theta1 - ETA * xyList.ForEach((e) => (f(e.X) - e.Y) * e.X).Sum();

            // 매개변수 갱신
            theta0 = tmp_theta0;
            theta1 = tmp_theta1;

            // 이전 회의 오차와의 차분을 계산
            double currentError = E(xyList);
            diff = error - currentError;
            error = currentError;

            // 로그 출력
            count++;
            Console.WriteLine($"{count,4:#} 회째: theta0 = {theta0,8:#.0000}, theta1 = {theta1,8:#.0000}, 차분 = {diff,8:#.0000}");
        }

        // 그래프 출력
        double[] xData = xyList.Select((elem) => elem.X).ToArray();
        double[] yData = xyList.Select((elem) => elem.Y).ToArray();
        DrawPlotChart(xData, yData, f);
    }
}

/* 출력 결과
   1 회째: theta0 =   9.3955, theta1 =   2.6899, 차분 = 76048.3710
   2 회째: theta0 =  17.7905, theta1 =   4.5057, 차분 = 73036.8555
   3 회째: theta0 =  26.0177, theta1 =   6.2851, 차분 = 70144.5960
...[생략]...
 384 회째: theta0 = 428.9669, theta1 =  93.4392, 차분 =    .0145
 385 회째: theta0 = 428.9706, theta1 =  93.4400, 차분 =    .0139
 386 회째: theta0 = 428.9742, theta1 =  93.4407, 차분 =    .0133
 387 회째: theta0 = 428.9777, theta1 =  93.4415, 차분 =    .0128
 388 회째: theta0 = 428.9812, theta1 =  93.4422, 차분 =    .0123
 389 회째: theta0 = 428.9845, theta1 =  93.4430, 차분 =    .0118
 390 회째: theta0 = 428.9878, theta1 =  93.4437, 차분 =    .0113
 391 회째: theta0 = 428.9911, theta1 =  93.4444, 차분 =    .0109
 392 회째: theta0 = 428.9943, theta1 =  93.4451, 차분 =    .0105
 393 회째: theta0 = 428.9974, theta1 =  93.4458, 차분 =    .0101
 394 회째: theta0 = 429.0004, theta1 =  93.4464, 차분 =    .0097
*/

출력된 그래프를 보면 잘 근사한 것을 확인할 수 있습니다.

lsm_gradient_descent_1.png

(첨부 파일은 이 글의 예제 코드를 포함합니다.)




그러니까 위의 소스 코드는 "기초 수학으로 이해하는 머신러닝 알고리즘" 책의 파이썬 코드를,

math-for-ml / regression1_linear.py 
; https://github.com/wikibook/math-for-ml/blob/master/regression1_linear.py

C# 버전으로 변경했다고 보면 되겠습니다. ^^




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]





[최초 등록일: ]
[최종 수정일: 5/31/2019 ]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer@outlook.com

비밀번호

댓글 쓴 사람
 



2019-06-11 12시04분
다음의 글에 그래프가 수렴하는 애니메이션을 확인할 수 있습니다. ^^

C# - 최소 자승법의 1차, 2차 수렴 그래프 변화 확인
; http://www.sysnet.pe.kr/2/0/11936
정성태

... [16]  17  18  19  20  21  22  23  24  25  26  27  28  29  30  ...
NoWriterDateCnt.TitleFile(s)
11848정성태3/17/20191162스크립트: 14. 윈도우 CMD - 파일이 변경된 경우 파일명을 변경해 복사하고 싶다면?
11847정성태3/17/20192082Linux: 7. 리눅스 C/C++ - 공유 라이브러리 동적 로딩 후 export 함수 사용 방법파일 다운로드1
11846정성태3/15/20191798Linux: 6. getenv, setenv가 언어/운영체제마다 호환이 안 되는 문제
11845정성태3/15/20192361Linux: 5. Linux 응용 프로그램의 (C++) so 의존성 줄이기(ReleaseMinDependency) [3]
11844정성태5/22/20192338개발 환경 구성: 434. Visual Studio 2019 - 리눅스 프로젝트를 이용한 공유/실행(so/out) 프로그램 개발 환경 설정 [1]파일 다운로드1
11843정성태3/14/20191258기타: 75. MSDN 웹 사이트를 기본으로 영문 페이지로 열고 싶다면?
11842정성태5/3/20191260개발 환경 구성: 433. 마이크로소프트의 CoreCLR 프로파일러 예제를 Visual Studio CMake로 빌드하는 방법 [1]파일 다운로드1
11841정성태3/13/20191103VS.NET IDE: 132. Visual Studio 2019 - CMake의 컴파일러를 기본 g++에서 clang++로 변경
11840정성태3/13/20191167오류 유형: 526. 윈도우 10 Ubuntu App 환경에서는 USB 외장 하드 접근 불가
11839정성태3/12/20191648디버깅 기술: 124. .NET Core 웹 앱을 호스팅하는 Azure App Services의 프로세스 메모리 덤프 및 windbg 분석 개요 [2]
11838정성태5/9/20192386.NET Framework: 811. (번역글) .NET Internals Cookbook Part 1 - Exceptions, filters and corrupted processes [1]파일 다운로드1
11837정성태10/14/20197271기타: 74. 도서: 시작하세요! C# 7.3 프로그래밍 [10]
11836정성태10/12/20191830오류 유형: 525. Visual Studio 2019 Preview 4/RC - C# 8.0 Missing compiler required member 'System.Range..ctor' [1]
11835정성태3/5/20191954.NET Framework: 810. C# 8.0의 Index/Range 연산자를 .NET Framework에서 사용하는 방법 및 비동기 스트림의 컴파일 방법 [1]파일 다운로드1
11834정성태3/4/20191411개발 환경 구성: 432. Visual Studio 없이 최신 C# (8.0) 컴파일러를 사용하는 방법
11833정성태5/14/20191823개발 환경 구성: 431. Visual Studio 2019 - CMake를 이용한 공유/실행(so/out) 리눅스 프로젝트 설정파일 다운로드1
11832정성태3/4/20191383오류 유형: 524. Visual Studio CMake - rsync: connection unexpectedly closed
11831정성태3/4/20191136오류 유형: 523. Visual Studio 2019 - 새 창으로 뜬 윈도우를 닫을 때 비정상 종료
11830정성태2/26/20191041오류 유형: 522. 이벤트 로그 - Error opening event log file State. Log will not be processed. Return code from OpenEventLog is 87.
11829정성태12/12/20191226개발 환경 구성: 430. 마이크로소프트의 CoreCLR 프로파일러 예제 빌드 방법 - 리눅스 환경 [1]
11828정성태2/26/20192532개발 환경 구성: 429. Component Services 관리자의 RuntimeBroker 설정이 2개 있는 경우
11827정성태2/26/20191606오류 유형: 521. Visual Studio - Could not start the 'rsync' command on the remote host, please install it using your system package manager.
11826정성태2/26/20191261오류 유형: 520. 우분투에 .NET Core SDK 설치 시 패키지 의존성 오류
11825정성태2/25/20193407개발 환경 구성: 428. Visual Studio 2019 - CMake를 이용한 리눅스 빌드 환경 설정 [1]
11824정성태2/25/20191814오류 유형: 519. The SNMP Service encountered an error while accessing the registry key SYSTEM\CurrentControlSet\Services\SNMP\Parameters\TrapConfiguration. [1]
11823정성태2/21/20191253오류 유형: 518. IIS 관리 콘솔이 뜨지 않는 문제
... [16]  17  18  19  20  21  22  23  24  25  26  27  28  29  30  ...