(연관된 글이 2개 있습니다.)
(시리즈 글이 7개 있습니다.)

Math: 15. 그래프 그리기로 알아보는 뉴턴-랩슨(Newton-Raphson's method)법과 제곱근 구하기 - C#
; https://www.sysnet.pe.kr/2/0/10911

Math: 53. C# - 행렬식을 이용한 최소 자승법(LSM: Least Square Method)
; https://www.sysnet.pe.kr/2/0/11918

Math: 54. C# - 최소 자승법의 1차 함수에 대한 매개변수를 단순 for 문으로 구하는 방법
; https://www.sysnet.pe.kr/2/0/11919

Math: 55. C# - 다항식을 위한 최소 자승법(Least Squares Method)
; https://www.sysnet.pe.kr/2/0/11921

Math: 56. C# - 그래프 그리기로 알아보는 경사 하강법의 최소/최댓값 구하기
; https://www.sysnet.pe.kr/2/0/11923

Math: 57. C# - 해석학적 방법을 이용한 최소 자승법
; https://www.sysnet.pe.kr/2/0/11924

Math: 58. C# - 최소 자승법의 1차, 2차 수렴 그래프 변화 확인
; https://www.sysnet.pe.kr/2/0/11936

C# - 해석학적 방법을 이용한 최소 자승법

다음의 글에 보면,

최소자승법 이해와 다양한 활용예 (Least Square Method)
; https://darkpgmr.tistory.com/56

최소 자승법(최소 제곱법)의 풀이로 대수적 방법과 해석학적 방법이 있다고 하는데요. 대수적 방법은 지난번에 설명했으니, 이번엔 해석학적 방법을 알아보겠습니다. (보다 더 자세한 설명은 "기초 수학으로 이해하는 머신러닝 알고리즘" 책을 참고하시고 여기서는 간략하게 넘어가겠습니다.)

그러니까, 결국 중요한 것은 데이터를 근사하는 방정식의,

f_θ(x) = θ₀ + θ₁x

매개변수 값(θ₀, θ₁)을 정하는 것입니다. 이를 위해 데이터와의 오차를 계산하는 목적함수에 대해,

 $E(\theta) = \frac{1}{2} \sum_{i=1}^n (y_i - f_\theta(x_i))^2$

각각의 매개변수(θ₀, θ₁)로 편미분한 도함수를 다음과 같이 정리할 수 있습니다.

 $\frac{\partial \mu}{\partial \theta_0} = \sum_{i=1}^n (f_\theta(x_i) - y_i)$ 

 $\frac{\partial \mu}{\partial \theta_1} = \sum_{i=1}^n (f_\theta(x_i) - y_i) \times x_i$

도함수가 정해졌으니, 이제 목적함수의 최솟값을 구하기 위해 경사하강법을 사용할 수 있고,

C# - 그래프 그리기로 알아보는 경사 하강법의 최소/최댓값 구하기
; https://www.sysnet.pe.kr/2/0/11923

따라서 도함수의 부호에 따라 매개변수를 근사하는 식은 다음과 같이 정리가 됩니다.

 $\theta_0 := \theta_0 - \eta \times \sum_{i=1}^n (f_\theta(x_i) - y_i)$ 

 $\theta_1 := \theta_1 - \eta \times \sum_{i=1}^n (f_\theta(x_i) - y_i) \times x_i$

끝났군요. ^^ 이제 위의 동작을 코드로 잘 옮겨주면 연산이 진행될수록 θ₀, θ₁ 값들은 근사한 1차 방정식의 모습을 갖추게 될 것입니다.

말이 좀 어려운데, 사실 코드로 보면 그다지 어렵지 않습니다. ^^

using MathNet.Numerics.Random;
using Microsoft.ML;
using Microsoft.ML.Data;
using PLplot;
using System;
using System.Collections.Generic;
using System.Linq;
using Microsoft.ML.Data;

class Program
{
    static void Main(string[] args)
    {
        MLContext ctx = new MLContext();

        IDataView data = ctx.Data.LoadFromTextFile<ClickData>("click.csv", separatorChar: ',', hasHeader: true);

        // 표준화
        var xyList = ctx.Data.CreateEnumerable<ClickData>(data, false).NormalizeZscore();

        // 매개변수 초기화
        double theta0 = SystemRandomSource.Default.NextDouble();
        double theta1 = SystemRandomSource.Default.NextDouble();

        // 예측 함수
        Func<double, double> f = (x) => theta0 + theta1 * x;

        // 목적 함수
        Func<double, double, double> errorFunc = (x, y) => Math.Pow((y - f(x)), 2);
        Func<IEnumerable<ClickData>, double> E = (list) => 0.5 * list.ForEach((e) => errorFunc(e.X, e.Y)).Sum();

        // 학습률
        double ETA = 1e-03;

        // 오차의 차분
        double diff = 1.0;

        // 갱신 횟수
        int count = 0;

        // 오차의 차분이 0.01 이하가 될 때까지 매개변수 갱신을 반복
        double error = E(xyList);

        while (diff > 1e-02)
        {
            // 갱신 결과를 임시 변수에 저장
            double tmp_theta0 = theta0 - ETA * xyList.ForEach((e) => f(e.X) - e.Y).Sum();
            double tmp_theta1 = theta1 - ETA * xyList.ForEach((e) => (f(e.X) - e.Y) * e.X).Sum();

            // 매개변수 갱신
            theta0 = tmp_theta0;
            theta1 = tmp_theta1;

            // 이전 회의 오차와의 차분을 계산
            double currentError = E(xyList);
            diff = error - currentError;
            error = currentError;

            // 로그 출력
            count++;
            Console.WriteLine($"{count,4:#} 회째: theta0 = {theta0,8:#.0000}, theta1 = {theta1,8:#.0000}, 차분 = {diff,8:#.0000}");
        }

        // 그래프 출력
        double[] xData = xyList.Select((elem) => elem.X).ToArray();
        double[] yData = xyList.Select((elem) => elem.Y).ToArray();
        DrawPlotChart(xData, yData, f);
    }
}

/* 출력 결과
   1 회째: theta0 =   9.3955, theta1 =   2.6899, 차분 = 76048.3710
   2 회째: theta0 =  17.7905, theta1 =   4.5057, 차분 = 73036.8555
   3 회째: theta0 =  26.0177, theta1 =   6.2851, 차분 = 70144.5960
...[생략]...
 384 회째: theta0 = 428.9669, theta1 =  93.4392, 차분 =    .0145
 385 회째: theta0 = 428.9706, theta1 =  93.4400, 차분 =    .0139
 386 회째: theta0 = 428.9742, theta1 =  93.4407, 차분 =    .0133
 387 회째: theta0 = 428.9777, theta1 =  93.4415, 차분 =    .0128
 388 회째: theta0 = 428.9812, theta1 =  93.4422, 차분 =    .0123
 389 회째: theta0 = 428.9845, theta1 =  93.4430, 차분 =    .0118
 390 회째: theta0 = 428.9878, theta1 =  93.4437, 차분 =    .0113
 391 회째: theta0 = 428.9911, theta1 =  93.4444, 차분 =    .0109
 392 회째: theta0 = 428.9943, theta1 =  93.4451, 차분 =    .0105
 393 회째: theta0 = 428.9974, theta1 =  93.4458, 차분 =    .0101
 394 회째: theta0 = 429.0004, theta1 =  93.4464, 차분 =    .0097
*/

출력된 그래프를 보면 잘 근사한 것을 확인할 수 있습니다.

(첨부 파일은 이 글의 예제 코드를 포함합니다.)

그러니까 위의 소스 코드는 "기초 수학으로 이해하는 머신러닝 알고리즘" 책의 파이썬 코드를,

math-for-ml / regression1_linear.py 
; https://github.com/wikibook/math-for-ml/blob/master/regression1_linear.py

C# 버전으로 변경했다고 보면 되겠습니다. ^^

[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]

[연관 글]

[최초 등록일: 5/30/2019]
[최종 수정일: 5/31/2019]

이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.

by SeongTae Jeong, mailto:techsharer at outlook.com

No	Writer	Date	Cnt.	Title	File(s)
13610	정성태	4/28/2024	14811	닷넷: 2251. C# - 제네릭 인자를 가진 타입을 생성하는 방법 - 두 번째 이야기
13609	정성태	4/27/2024	14493	닷넷: 2250. PInvoke 호출 시 참조 타입(class)을 마샬링하는 [IN], [OUT] 특성	1
13608	정성태	4/26/2024	15732	닷넷: 2249. C# - 부모의 필드/프로퍼티에 대해 서로 다른 자식 클래스 간에 Reflection 접근이 동작할까요?	1
13607	정성태	4/25/2024	16336	닷넷: 2248. C# - 인터페이스 타입의 다중 포인터를 인자로 갖는 C/C++ 함수 연동
13606	정성태	4/24/2024	15140	닷넷: 2247. C# - tensorflow 연동 (MNIST 예제)	1
13605	정성태	4/23/2024	17154	닷넷: 2246. C# - Python.NET을 이용한 파이썬 소스코드 연동	1
13604	정성태	4/22/2024	12833	오류 유형: 901. Visual Studio - Unable to set the next statement. Set next statement cannot be used in '[Exception]' call stack frames.
13603	정성태	4/21/2024	16137	닷넷: 2245. C# - IronPython을 이용한 파이썬 소스코드 연동	1
13602	정성태	4/20/2024	14642	닷넷: 2244. C# - PCM 오디오 데이터를 연속(Streaming) 재생 (Windows Multimedia)	1
13601	정성태	4/19/2024	15312	닷넷: 2243. C# - PCM 사운드 재생(NAudio)	1
13600	정성태	4/18/2024	16956	닷넷: 2242. C# - 관리 스레드와 비관리 스레드
13599	정성태	4/17/2024	16691	닷넷: 2241. C# - WAV 파일의 PCM 사운드 재생(Windows Multimedia)	1
13598	정성태	4/16/2024	16588	닷넷: 2240. C# - WAV 파일 포맷 + LIST 헤더	2
13597	정성태	4/15/2024	13723	닷넷: 2239. C# - WAV 파일의 PCM 데이터 생성 및 출력	1
13596	정성태	4/14/2024	14361	닷넷: 2238. C# - WAV 기본 파일 포맷	1
13595	정성태	4/13/2024	14884	닷넷: 2237. C# - Audio 장치 열기 (Windows Multimedia, NAudio)	1
13594	정성태	4/12/2024	14788	닷넷: 2236. C# - Audio 장치 열람 (Windows Multimedia, NAudio)	1
13593	정성태	4/8/2024	12968	닷넷: 2235. MSBuild - AccelerateBuildsInVisualStudio 옵션
13592	정성태	4/2/2024	16127	C/C++: 165. CLion으로 만든 Rust Win32 DLL을 C#과 연동 [1]
13591	정성태	4/2/2024	14791	닷넷: 2234. C# - WPF 응용 프로그램에 Blazor App 통합	1
13590	정성태	3/31/2024	14721	Linux: 70. Python - uwsgi 응용 프로그램이 k8s 환경에서 OOM 발생하는 문제
13589	정성태	3/29/2024	13795	닷넷: 2233. C# - 프로세스 CPU 사용량을 나타내는 성능 카운터와 Win32 API	1
13588	정성태	3/28/2024	16710	닷넷: 2232. C# - Unity + 닷넷 App(WinForms/WPF) 간의 Named Pipe 통신 [2]	1
13587	정성태	3/27/2024	13768	오류 유형: 900. Windows Update 오류 - 8024402C, 80070643
13586	정성태	3/27/2024	19185	Windows: 263. Windows - 복구 파티션(Recovery Partition) 용량을 늘리는 방법
13585	정성태	3/26/2024	15237	Windows: 262. PerformanceCounter의 InstanceName에 pid를 추가한 "Process V2"

AD BLOCK 해제 요청

C# - 해석학적 방법을 이용한 최소 자승법