์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- li-ion
- ํน๋ณ ๋ฉ์๋
- ์ฒญ์ถ ํ์ดํ
- ๋ฏธ๋์์ ์ฅํ์
- fluent python
- set add
- ์ ๋ฝ
- 2022๋
- gradient descent
- Linear Regression
- m1 anaconda ์ค์น
- Python
- ๋ฅ๋ฌ๋
- electrochemical models
- ๊ตํํ์
- fatigue fracture
- Machine learning
- set method
- ์ ๋ฝ ๊ตํํ์
- Deeplearning
- special method
- ์ด์ฐจ์ ์ง
- ์๊ทน์ฌ
- anaconda ๊ฐ์ํ๊ฒฝ
- Andrew ng
- ๋์23์ด
- ์ ํํ๊ท
- cost function
- ์ค์คํธ๋ฆฌ์
- ๋ฏธ๋์์ ํด์ธ๊ตํ
- Today
- Total
Done is Better Than Perfect
04. Logistic Regression ๋ณธ๋ฌธ
๋ชฉ์ฐจ
1. Classification
classification์ ๋ฐ์ดํฐ์ ๊ฒฐ๊ณผ๋ฅผ 0๋๋ 1๋ก ๋ถ๋ฅํ๋ ๋ชจ๋ธ์ด๋ค. ์๋ฅผ ๋ค์ด, ๋ฉ์ผ์ ์คํธ์ฌ๋ถ์ ์์ ์ ์ฑ ์ฌ๋ถ๋ฅผ ํ๋จํ ๋ ์ฌ์ฉ๋๋ค.
์ผ๋ฐ์ ์ผ๋ก ์ฐธ, ๊ฑฐ์ง์ผ๋ก ๋ถ๋ฅ๋๋ ๋ชจ๋ธ์์ 1์ positive class, 0์ negative class๋ก ํํํ๋ค.
์ถํ์ 2๊ฐ ์ด์์ ์นดํ ๊ณ ๋ฆฌ๋ก ๋ถ๋ฅํ๋ multiple-class classification๋ ํ์ตํ ๊ฒ์ด๋ค.

Linear regression์ classification์ ์ ์ฉํ๋ฉด ์์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ์ค๋ฅธ์ชฝ์ ๋๋จ์ด์ง ๋ฐ์ดํฐ๊ฐ ์ถ๊ฐ๋ ๊ฒฝ์ฐ hํจ์(๊ฐ์คํจ์)๊ฐ ๋ฐ๋๊ธฐ ๋๋ฌธ์ ํ๋จ์ ์๋ชปํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ผ๊ธฐํ๋ค. ๋ฐ๋ผ์, classification์ linear regression์ ์ฌ์ฉํ ์ ์๋ค.
2. Hypothesis Representation
hํจ์(๊ฐ์คํจ์)์ ๊ฐ์ด 0 ๊ณผ 1์ฌ์ด์ ๊ฐ์ ๊ฐ๋๋ก Logistic Regression์ ์ฌ์ฉํ๋ค.
0โคhฮธ(x)โค1๋ฅผ ๋ง์กฑํ์ํค๊ธฐ ์ํด์ ๊ฐ์คํจ์ hฮธ(x)๋ฅผ g(z)์ ํํ๋ก ๋ณํํ๋ค.
์ด gํจ์๋ ์๋์ ๊ฐ์ ๊ณต์์ผ๋ก ๋ํ๋ด๋ฉฐ ์ด๋ฅผ sigmoid function ๋๋ Logistic function์ด๋ผ ํ๋ค. ์ด ํจ์๋ฅผ ๊ทธ๋ํ๋ก ํํํ๋ฉด ์๋์ ๊ฐ์ด ์๋งํ S์ ํํ๋ฅผ ๋ค๋ค.


hypothesis(hํจ์)์ ๊ฒฐ๊ณผ๋ x๊ฐ ๊ฒฐ์ ๋์์ ๋, y๊ฐ 1์ด ๋๋ ํ๋ฅ ์ ์๋ฏธํ๋ค.
๋ง์ฝ h ํจ์์ ๊ฐ์ด 0.7๋ก ๋์๋ค๋ฉด, ์ด๊ฒ์ ์ต์ข
๊ฒฐ๊ณผ(y)๊ฐ 1์ผ ๊ฐ๋ฅ์ฑ์ด 70%๋ค ๋ผ๊ณ ๋งํ ์ ์๋ค.
hํจ์๋ y = 1์ด ๋ ๊ฐ๋ฅ์ฑ์ด x์ theta์ ์ํด ๊ฒฐ์ ๋๋ค.
๋ฐ๋๋ก y = 0์ด ๋ ๊ฐ๋ฅ์ฑ์ 1 - (y๊ฐ 1์ด ๋ ๊ฐ๋ฅ์ฑ)์ด๋ค.

3. Decision Boundary
y๊ฐ 0์ธ์ง 1์ธ์ง ํ๋จํ๋ ๊ฒฝ๊ณ์ ์ decision boundary๋ผ ํ๊ณ , ์ด๋ ๊ฐ์ค ํจ์์ ์ํด ๊ฒฐ์ ๋๋ค.
y๊ฐ 1์ด ๋๋ ๊ธฐ์ค์ ์ดํด๋ณด๋ฉด h ํจ์๊ฐ 0.5๋ณด๋ค ํฐ ๊ฐ์ด ๋์ด์ผ ํ๊ณ ๊ทธ์ ๋์์ theta transpose * x์ ๊ฐ์ด 0๋ณด๋ค ํฐ ๊ฐ์ด ๋๋ ๊ฒ๊ณผ ๋์ผํฉ๋๋ค. ๋ฐ๋๋ก y๊ฐ 0์ด ๋๋ ๊ธฐ์ค์ ๋ณด๋ฉด h ํจ์๊ฐ 0.5๋ณด๋ค ์์ ๊ฐ์ด ๋์ด์ผ ํ๋ฉฐ ๋์์ theta transpose * x์ ๊ฐ์ด 0๋ณด๋ค ์์ผ๋ฉด y๊ฐ 0์ด ๋จ์ ์์ ์์ต๋๋ค.
๊ฐ๋ น hฮธ(x)โฅ0.5hฮธ(x)โฅ0.5 ์ผ๋ y = 1์ด๋ผ๊ณ ๊ฐ์ ํ๋ค๋ฉด, hฮธ(x)=g(ฮธTx)โฅ0.5hฮธ(x)=g(ฮธTx)โฅ0.5 ์ ๊ฐ๋ค. ๊ทธ๋ํ๋ฅผ ๋ณด๋ฉด zโฅ0zโฅ0์ผ๋ g(z)โฅ0.5g(z)โฅ0.5์ด๋ฏ๋ก z=ฮธTxโฅ0z=ฮธTxโฅ0 ์ผ๋ ์ ๊ฐ๋ค.
์ฆ ฮธTxโฅ0 ์ด๋ฉด, y=1 ๋ก ์์ธกํ ์ ์๋ค.

์๋์ ๋ฐ์ดํฐ์์ ์์๋ก ์ต์ parameter ฮธ๋ฅผ [-3,1,1]๋ก ์ค์ ํ๋ค๋ฉด. ์ด ์ต์ parameter๋ฅผ ๊ฐ์ง๊ณ ๋ค์๊ณผ ๊ฐ์ ๊ฒฐ๋ก ์ ๋ด๋ฆด ์ ์๋ค.


์ด ๋์ decision boundary๋ โ3+x1+x2=0 ์ด๋ค. ์ ๊ทธ๋ฆผ์์ ๋ น์์ผ๋ก ํ์๋ ์ ์ด๋ค. ์ด์ training set์ ๋ค์ด์์ง ์์๋, ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ๋ํ๋๋ฉด x1 ๊ฐ๊ณผ x2 ๊ฐ์ ์ด์ฉํ์ฌ ์ขํ๋ฅผ ์ฐ์ด๋ณด๊ณ , decision boundary๋ณด๋ค ์์ชฝ์ ์ฐํ๋ฉด class 1์, ์๋์ชฝ์ ์ฐํ๋ฉด class 0์ ๋ฃ์ผ๋ฉด ๋๋ ๊ฒ์ด๋ค.
์ด ๋, decision boundary๋ ฮธ ์ ์ํด ๊ฒฐ์ ๋๋ ๊ฒ์์ ๊ธฐ์ตํ์. Training data๋ parameter๋ฅผ ๊ฒฐ์ ํ๋ ๋ฐ์ ์ด์ฉ๋ ๋ฟ, decision boundary ์ ์ง์ ์ ์ผ๋ก ์ํฅ์ ๋ฏธ์น์ง๋ ์๋๋ค.
Non-Linear Decision Boundary
์๋์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด decision boundary๊ฐ ์ง์ ์ผ๋ก ์ฃผ์ด์ง์ง ์๋ ๊ฒฝ์ฐ๊ฐ ์๋ค.

์ด ๊ฒฝ์ฐ polynomial ํ๊ฒ feature์ ์ฐจ์์ ๋์ฌ non-linear decision boundary๋ฅผ ํํํ ์ ์๋ค.
4. Cost Function
์ ์ ํ parameter ฮธ๋ฅผ ๊ตฌํ๋ ๋ฐฉ๋ฒ์ cost function์ ํ์ฉํ๋ฉด ๋๋ค.
์ด์ ์ Linear regresssion์์ ์ฌ์ฉํ๋ cost function๊ณผ ๋ค๋ฅธ cost function ์ฌ์ฉํด์ผ ํ๋ค.
Logistic function์ ๊ฒฐ๊ณผ๊ฐ linear์ด ์๋๋ฏ๋ก ๋ง์ local optima๋ฅผ ์์ฑํ๊ธฐ ๋๋ฌธ์ด๋ค. (convex function X)
Logistic regression์ cost function์ ๋ค์๊ณผ ๊ฐ๋ค.


๊ทธ๋ํ๋ฅผ ์์ธํ ํ์ด๋ณด์๋ฉด,
y=1์ผ ๋, hํจ์(๊ฐ์ค ํจ์)์ ์์ธก๊ฐ์ด 1์ด ๋์์ผํ๋ฏ๋ก
์ด๋ cost๋ 0์ด ๋๊ณ ,
y=1์ผ ๋, hํจ์(๊ฐ์ค ํจ์)์ ์์ธก๊ฐ์ด 0์ ๊ฐ๊น์ธ์๋ก cost๋ ๋ฌดํ๋๋ก ์ฆ๊ฐํ์ฌ cost๋ฅผ ์ต์ํํ๋ cost ํจ์๋ฅผ ํ์ธํ์๋ค.

y=0์ผ ๋, hํจ์(๊ฐ์ค ํจ์)์ ์์ธก๊ฐ์ด 0์ด ๋์์ผํ๋ฏ๋ก
์ด๋ cost๋ 0์ด ๋๊ณ ,
y=1์ผ ๋, hํจ์(๊ฐ์ค ํจ์)์ ์์ธก๊ฐ์ด 1์ ๊ฐ๊น์ธ์๋ก cost๋ ๋ฌดํ๋๋ก ์ฆ๊ฐํ์ฌ costํจ์์ ์ ํฉํ๋ค๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.

Simplified Cost Function
y = 0๋๋ 1์ ๊ฐ๋ง ๊ฐ์ง๊ธฐ ๋๋ฌธ์ ๋ค์๊ณผ ๊ฐ์ด ํ๋์ ์์ผ๋ก ๊ฐ๋จํ ํํ ๊ฐ๋ฅํ๋ค.

์ ์ฒด cost function( J(ฮธ))์ ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.

vectorํํ๋ก ์์ ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค

Gradient Descent
cost๊ฐ ๊ฐ์ฅ ์์ ๊ฒฝ์ฐ์ parameter ฮธ๋ฅผ ์ฐพ๊ธฐ ์ํด gradient descent๋ฅผ ์ ์ฉํ๋ค.
์ด๋, ๊ฐ ฮธ ๊ฐ์ ๋์์ ๊ณ์ฐ(์ ๋ฐ์ดํธ)๋๋ค.

ํธ๋ฏธ๋ถํ๊ณ , ๋ํจ์(Derivative)๋ฅผ ๋์ ํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.

์ฃผ์ ! ) ์ฌ๊ธฐ์ linear regression์ gradient descent์ ํํ๋ ๊ฐ์ง๋ง h ํจ์๊ฐ ๋ค๋ฅด๋ค.
- Linear regression
- Logistic regression

vector ํ์์ผ๋ก ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.

5. Advanced Optimization
์์์ cost๊ฐ ๊ฐ์ฅ ์์ ๊ฒฝ์ฐ์ parameter ฮธ๋ฅผ ์ฐพ๊ธฐ ์ํด gradient descent๋ฅผ ์์๋ณด์๋ค.
gradient descent ์ธ์ ๋ค๋ฅธ optimization algorithm๋ ์๋ค.
- Conjugate gradient
- BFGS (Broyden-Fletcher-Goldfarb-Shanno)
- L-BFGS (Limited memory - BFGS)
์ด ์๊ณ ๋ฆฌ์ฆ์ gradient descent ๋ณด๋ค ๋ ๋น ๋ฅด๊ณ , learning rate(์ํ)๋ฅผ ์ ํํ์ง ์์๋ ๋๋ค๋ ์ฅ์ ์ด ์์ง๋ง,
๋ ๋ณต์กํ ์๊ณ ๋ฆฌ์ฆ์ด๋ผ๋ ๋จ์ ๋ ์๋ค.
6. Multiclass Classification

์์์๋ y๊ฐ 0๋๋ 1์ ๊ฒฐ๊ณผ๊ฐ๋ง์ ๊ฐ์ง๋ binary classification์ ์์๋ณด์๋ค.
์ด์ ๋ ๊ทธ ๊ฐ๋ ์ ํ์ฅํ์ฌ 2๊ฐ ์ด์์ ์นดํ ๊ณ ๋ฆฌ๋ก ๋ถ๋ฅํ๋ multiclass classification์ ๋ํ์ฌ ์์๋ณด๋๋ก ํ์.
multiclass classification์ ์์
ex) email tagging, medical diagram, weather
y๊ฐ n๊ฐ์ ์นดํ ๊ณ ๋ฆฌ๋ก ๊ฒฐ๊ณผ๊ฐ ๋์ฌ ๋, n๊ฐ์ binary classification ๋ฌธ์ ๋ก ๋๋์ด ์๊ฐํ๋ค. (one VS all)

์ด one VS all ๋ฐฉ์์ ์ ๋ฆฌํ์๋ฉด,


hypothesis function์ ์ฃผ์ด์ง x๊ฐ class i ์ ๋ค์ด๊ฐ ๊ฐ๋ฅ์ฑ์ ๋ํ๋ธ๋ค.
์ฆ, hypothesis function์ด ๊ฐ์ฅ ํฐ ๊ฒ์ ํด๋น class์ ์ํ ํ๋ฅ ์ด ๊ฐ์ฅ ํฌ๋ค๋ ์๋ฏธ์ด๋ค.
๐ ์์ ํด์ผ ํ ๊ฒ : ์์ ์ ๋ถ ํ์ ์ฌ๊ฐํ ์์ ๋ค์ด๊ฐ ํ์์ผ๋ก ๋ฐ๊พธ๊ธฐ!!!!!
์์ ์ ๋ฆฌ!!!
'๐ค AI > Machine Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
05. Regularization (0) | 2022.03.25 |
---|---|
03. Linear Regression with Multiple Variable (1) | 2022.02.10 |
02. Linear regression with one variable (1) | 2022.02.04 |
01. introduction (0) | 2022.01.20 |
Machine Learning ์ ๋ฆฌ (0) | 2022.01.20 |