์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- ๋ฏธ๋์์ ์ฅํ์
- Python
- ์ ํํ๊ท
- set add
- anaconda ๊ฐ์ํ๊ฒฝ
- m1 anaconda ์ค์น
- ํน๋ณ ๋ฉ์๋
- special method
- fatigue fracture
- li-ion
- set method
- gradient descent
- Linear Regression
- ์ด์ฐจ์ ์ง
- ์ฒญ์ถ ํ์ดํ
- ์ค์คํธ๋ฆฌ์
- electrochemical models
- Machine learning
- fluent python
- cost function
- ์ ๋ฝ
- Deeplearning
- Andrew ng
- ๋์23์ด
- ์ ๋ฝ ๊ตํํ์
- ๋ฅ๋ฌ๋
- ์๊ทน์ฌ
- ๊ตํํ์
- ๋ฏธ๋์์ ํด์ธ๊ตํ
- 2022๋
- Today
- Total
Done is Better Than Perfect
05. Regularization ๋ณธ๋ฌธ
๋ชฉ์ฐจ
์ ๋ฒ ํฌ์คํธ์์๋ ์ง๋ํ์ต์ Linear Regression๋ชจ๋ธ๊ณผ Logistic Regression ๋ชจ๋ธ์ ๋ฐฐ์ ๋ค.
์ด๋ฒ์๋ hํจ์๋ฅผ ๋ ์์ธํ ์์๋ณด๋๋ก ํ์.๐
1. Overfitting Problem
๊ฐ์ฅ ์ผ์ชฝ ๊ทธ๋ํ์ ๊ฒฝ์ฐ, hํจ์(๊ฐ์ค ํจ์)๋ฅผ θ์ ๋ํ 1์ฐจ ๋ฐฉ์ ์์ผ๋ก ์ ์ โก ๋ฐ์ดํฐ์ ์์ธก์ด ์ผ์นํ์ง ์๋๋ค.
์ผ๋ฐ์ ์ผ๋ก ๋๋ฌด ๋จ์ํ๊ฑฐ๋ ๋๋ฌด ์ ์ ๊ธฐ๋ฅ์ ์ฌ์ฉํ๋ ๊ธฐ๋ฅ ๋๋ฌธ์ ๋ฐ์ํ๋ค.
์ด๋ฌํ ๊ฒฝ์ฐ๋ฅผ Underfit ๋๋ High Bias๋ผ ํ๋ค.
๊ฐ์ฅ ์ค๋ฅธ์ชฝ ๊ทธ๋ํ์ ๊ฒฝ์ฐ, hํจ์๋ฅผ ๋ค์ฐจ์๋ฐฉ์ ์์ผ๋ก ์ ์ โก ๊ฐ๊ฐ์ ๋ฐ์ดํฐ ๊ฒฐ๊ณผ ๊ฐ์ ๋ง์กฑํ๋ ํํ๋ฅผ ๋๋ค๊ณ ํ ์ ์๋ค.
training data set์์๋ ์ต์ ํ๊ฐ ์ ๋์๋ค๊ณ ์๊ฐํ ์ ์์ง๋ง ์๋ก์ด data์ ๋ํ ์ ํ๋๋ ์ฅ๋ดํ ์ ์๋ค.
์ฆ, ๋๋ฌด ์ํ๋ฐ์ดํฐ์ ๊ณผํ๊ฒ ์ต์ ํ๋์ด์์ด ์ผ๋ฐํํ๊ธฐ ์ด๋ ต๋ค๊ณ ํ ์ ์๋ค.
์ด๋ฌํ ๊ฒฝ์ฐ๋ฅผ Overfit ๋๋ High variance๋ผ ํ๋ค.
์ด์ ๊ฐ์ด๋ฐ ๊ทธ๋ํ๋ฅผ ๋ณด๋๋ก ํ์.
h ํจ์๋ฅผ 2์ฐจ ๋ฐฉ์ ์์ผ๋ก ์ ์ํ์ฌ dataset์ ์ ํฉํ๋ฉด์ feature๊ฐ์ ๊ด๊ณ๋ฅผ ์ ๋ํ๋ด๊ณ ์๋ค.
์ด๋ฌํ ๊ฒฝ์ฐ๋ฅผ Just Right๋ผ๊ณ ํ๋ฉฐ, ์ต์ ํ๊ฐ ์ ์ ํ ๋์๋ค๊ณ ํ ์ ์๋ค.
์ด์ Logistic Regression์ ์๋ฅผ ๋ณด๋๋ก ํ์.
Linear Regression์ overfitting์ ์ดํดํ๋ค๋ฉด ๋๊ฐ์ ๋ก์ง์ผ๋ก ์ดํด๊ฐ ๊ฐ๋ฅํ๋ค.
๋ ๋ง์ feature๋ฅผ ์ฝ์ ํ ์๋ก, training data set์ ์ fit ์ด ๋๋ค.
ํ์ง๋ง ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ์ ๋ ฅ๋์์ ๋ ํ๊ท ๋๋ ๋ถ๋ฅ๋ชจ๋ธ์์ ์ค์ฐจ๊ฐ ๋ฐ์ํ ๊ฐ๋ฅ์ฑ์ด ๋งค์ฐ ํฌ๋ค.
์ด์ ๊ฐ์ด training data์ ์ง๋์น๊ฒ fit ๋์ด ์ผ๋ฐ์ ์ธ ์ถ์ธ๋ฅผ ํํํ์ง ๋ชปํ๋ ๋ฌธ์ ๋ฅผ overfitting์ด๋ผ ํ๋ค.
์ฌ๊ธฐ, overfitting์ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ด ์๋ค.
1. feature์ ์ ์ค์ด๊ธฐ
- ์ค์ํ feature๋ง ๋จ๊ธฐ๊ธฐ
- model selection algorithm(๋ชจ๋ธ์ด ๋นผ์ผ ํ๋ feature ์๋ ค์ค๋ค.)
2. regularization(์ ๊ทํ)
- ๋ชจ๋ feature๋ ์ ์งํ๋, parameter θ์ ๊ท๋ชจ(magnitude) ์ค์ด๊ธฐ
2. Cost Function
์ ๊ทํ์ ๊ฐ๋ ์ ์๊ธฐ ์ํด์ cost function์ ์ค๋ช ์ด ํ์ํ๋ค.
๊ทธ๋ฆผ์ ์ค๋ฅธ์ชฝ ๊ทธ๋ํ๋ Linear Regressino์์ ๊ณผ์ ํฉ์ด ๋ ์์์ด๋ค.
์ด๋, θ3, θ4์ ๊ฐ๊ฐ 1000์ ๊ณฑํ cost function์ ์ฌ์ฉํ๋ค๊ณ ๊ฐ์ ํด๋ณด์. ์ด cost function์ θ์ ๊ฐ์ฅ ์์ ๊ฐ์ ๊ตฌํ๊ธฐ ๋๋ฌธ์ parameter(θ3,θ4)์ ๊ฐ์ ๊ฑฐ์ 0์ ๊ฐ๊น์ด ๊ฐ์ด ๋ ๊ฒ์ด๋ค.
๊ฒฐ๊ตญ, h ํจ์์์ ๋ค์ 2๊ฐ ํญ์ด 0์ ๊ทผ์ ํ๋ฏ๋ก 2์ฐจ ๋ฐฉ์ ์์ผ๋ก ์๊ฐํ ์ ์๋ค.
n๊ฐ์ parameters์์ ์ผ๋ถ parameter๋ฅผ (0์ ๊ทผ์ฌํ)์์ ๊ฐ์ผ๋ก ๋ง๋ค์ด h ํจ์๊ฐ ์ฌํํด์ง๋๋ก ํ๋ค.
์ด ๋ฐฉ๋ฒ์ overfitting์ ์ ๊ฒ ๋ฐ์์ํฌ ์ ์๋ ์ ๊ทํ๋ผ๊ณ ํ๋ค.
3. Regularization
์ด๋ฅผ ๊ณต์์ผ๋ก ํํํ๋ฉด cost function์ regulation์์ ์ถ๊ฐํ์ฌ Jํจ์๋ก ๋ง๋ค ์ ์๋ค.
์์ ์์์ λ(lambda)๋ฅผ regularization parameter์ด๋ผ ํ๋ค. λ๋ cost function๊ฐ ์ ์ ์ฉ์ด ๋ ์ ์๋๋ก ์กฐ์ ํ๋ค.
** λ๊ฐ ๋๋ฌด ํฐ ๊ฒฝ์ฐ์๋ θ์ parameter ๊ฐ์ด ์ ๋ถ 0์ด ๋์ด underfittingํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ํ๋ค.
4. Regularized Linear Regression
์ด์ linear regression๊ณผ logistic regression์ regularize๋ฅผ ์ ์ฉํด๋ณด์.
Linear regression์ ์ต์ $ \theta $parameter๋ฅผ ์ฐพ๋ ๋ฐฉ๋ฒ์ gradient descent์ normal equation, 2๊ฐ์ง ๋ฐฉ๋ฒ์ด ์๋ค.
Gradient Descent
์์์ cost function์ $ {\lambda} $ ํญ์ ์ถ๊ฐํ์ฌ ์ ๊ทํ๋ cost function์ ๋ง๋ค์๋ค. ์ด์ gradient descent ๊ณต์์ ์ ์ฉํด ๋ณด์.
$ \theta_{0} $๋ ์ ๊ทํ๋์ง ์์์ผ๋ฏ๋ก, ์์ ๋ถ๋ฆฌํ๋๋ก ์ฃผ์ํด์ผ ํ๋ค.
์์ ํ๋๋ก ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
์ด ์์์ ํฅ๋ฏธ๋ก์ด ์ ์ ํญ์ $ 1 - \alpha \lambda / m < 1$์ด๋ค. ๊ทธ๋์ $ \theta_{j} $๊ฐ update ํ ๋๋ง๋ค ์ค์ด๋ ๋ค.
์ค๋ฅธ์ชฝ ํญ์ ๊ธฐ์กด์ linear regression์ gradient descent์ ๋๊ฐ๋ค.
Normal Equation
X matrix๋ m x (n+1)์ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง๋ค. Normal equation์ regularize๋ฅผ ์ ์ฉํ๋ ค๋ฉด $ X^{T}X $ํญ ๋ค์ $ \lambda L $์ ๋ํ๋ค.
์ด ๋ L matrix๋ ์ฒซ๋ฒ์งธ ๊ฐ๋ง 0์ธ identity matrix์ด๋ค. [์ฐจ์์ (n+1) x (n+1)]
m < n์ด๋ฉด, $ X^{T}X $๋ non-invertible, singular์ด๋ค.
ํ์ง๋ง ์ ๊ทํ๋ฅผ ํด์ฃผ๋ฉด, $ X^{T}X + \lambda*L $์ invertible ํด์ง๋ค.
5. Regularized Logistic Regression
Logistic regression์์ regularize๋ฅผ ํ๋ ๋ฐฉ์์ ์์๋ณด๋๋ก ํ์.
[์์ ์๋ ๋ด๊ฐ ์ ๋ฆฌํ๊ธฐ ] https://wikidocs.net/4331 ์ฒ๋ผ ๊น๋ํ๊ฒ!!!
Regularized ๋ cost function์ ๊ทธ๋ฆผ์ ์๋ $ J(\theta) $ ๊ณผ ๊ฐ๋ค. ๊ธฐ์กด cost function์ $ \lambda $ ํญ์ด ์ถ๊ฐ๋์๋ค.
$ theta_{0} $๋ฅผ ์ ๊ทํํ์ง ์์ ๊ฒ์ ์ฃผ์ํด์ผ ํ๋ค.
์ด๋ฅผ gradient descent ์ ์ ์ฉํ๋ฉด,
๋ง์ฐฌ๊ฐ์ง๋ก $ \theta_{0} $๋ ์ ๊ทํ๋์ง ์์์ผ๋ฏ๋ก, ์์ ๋ถ๋ฆฌํ๋ค.
์ด ๊ณต์์ regularized linear regression์ gradient descent์ ์์ด ๊ฐ์ง๋ง $h$ ํจ์๊ฐ ๋ฌ๋ผ ๋ค๋ฅธ ํจ์์ด๋ค.
์์ ์์ ๊ฐ๋จํ๊ฒ ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
๊น๋ํ๊ฒ ์ ์ ๋ฆฌ!!1
+ ์ฐธ๊ณ ์๋ฃ
https://towardsdatascience.com/regularization-an-important-concept-in-machine-learning-5891628907ea
REGULARIZATION: An important concept in Machine Learning
Hello reader,
towardsdatascience.com
1) Cost Function
[TOC] # Intuition  ์ด ๋, $\theta_3$, $\the ...
wikidocs.net
'๐ค AI > Machine Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
04. Logistic Regression (1) | 2022.03.23 |
---|---|
03. Linear Regression with Multiple Variable (1) | 2022.02.10 |
02. Linear regression with one variable (1) | 2022.02.04 |
01. introduction (0) | 2022.01.20 |
Machine Learning ์ ๋ฆฌ (0) | 2022.01.20 |