딥러닝 공부 8일차
Maximum Liklihood Estimation(MLE)
최대 가능도 추정에 대해서 알아보겠습니다.
다음 그림과 같이 압정을 떨어뜨렸을 때, 똑바로 서거나 비스듬히 눕거나 두가지 종류만 있다고 가정해보겠습니다!
(실제로는 바닥에 박히는 등 다른 경우의 수고 있겠지만요)
사진에서 처음보는 용어가 등장합니다.
베르누이? 유체역학에서 배웠던 그 베르누이인가... 네 개소리구요
베르누이 시행이란?
결과가 두 가지 중 하나로만 나오는 실험이나 시행을 베르누이 시행(Bernoulli trial)이라고 한다.
예를 들어 동전을 한 번 던져 앞면(H:Head)이 나오거나 뒷면(T:Tail)이 나오게 하는 것도 베르누이 시행이다.
그래서 위에서 압정이 떨어지는 경우의수를 두가지로만 제한한 이유입니다.
두가지 경우의수만 있는 이산확률분포에서의 확률을 구하는 식입니다.
조합(Combination)을 떠올리실 수 있으면 베스트입니다.
n번의 시행중 원하는 사건이 k번 일어날 확률입니다.
그림에서의 $\theta$가 원하는 사건이 일어날 확률이고, 베르누이 시행이기 때문에 나머지 사건의 확률은 $(1-\theta)$ 이 되겠습니다.
그렇다면 그 확률이 최대가 되는 지점을 찾는 것이 우리의 목표인데 그 최대인 지점은 어떻게 찾을 수 있을까요?
Gradient Ascent
우리가 그동안 손실함수에서 최소가되는 cost 값을 찾기 위해 Gradient Descent 방식으로 최저점을 찾았다면 이번에는 가능도함수의 최대지점을 찾기 위해 반대의 방식인 Gradient Ascent 방식을 사용합니다.
작동원리 👈 Gradient Descent 방식의 상세한 설명이 나와있습니다. 보고 오시면 좋을 것 같습니다 😽
이제 우리는 손실함수를 최소화 시키거나, 관측한 함수의 최대 가능도가 어디인지 찾을 수 있게 되었습니다.
이렇게 데이터를 최소 손실, 최대 가능도로 학습시키다보면 Overfitting 을 피해갈 수가 없게 됩니다.
이 overfitting(과적합)에 대해서 다음 글에서 다뤄보도록 하겠습니다.
끝!
'ML & DL > Deep Learning' 카테고리의 다른 글
Lec 07-3: MNIST Introduction (0) | 2023.08.07 |
---|---|
Lec 07-2: Learning Rate, Overfitting, Regularization (0) | 2023.08.07 |
Lec 06: Softmax Classification (0) | 2023.08.06 |
Lec 05: Logistic Regression (0) | 2023.07.26 |
Lec 04-2: Mini Batch and Data Load (0) | 2023.07.26 |