์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 2022๋
- gradient descent
- ์ ๋ฝ
- ์ค์คํธ๋ฆฌ์
- ์ ํํ๊ท
- ์ด์ฐจ์ ์ง
- special method
- Deeplearning
- ๋ฅ๋ฌ๋
- fatigue fracture
- ๋ฏธ๋์์ ์ฅํ์
- Python
- ๊ตํํ์
- electrochemical models
- Linear Regression
- ๋์23์ด
- li-ion
- ์ฒญ์ถ ํ์ดํ
- set method
- Machine learning
- Andrew ng
- ๋ฏธ๋์์ ํด์ธ๊ตํ
- cost function
- ์ ๋ฝ ๊ตํํ์
- set add
- anaconda ๊ฐ์ํ๊ฒฝ
- ํน๋ณ ๋ฉ์๋
- fluent python
- m1 anaconda ์ค์น
- ์๊ทน์ฌ
- Today
- Total
Done is Better Than Perfect
04. Logistic Regression ๋ณธ๋ฌธ
๋ชฉ์ฐจ
1. Classification
classification์ ๋ฐ์ดํฐ์ ๊ฒฐ๊ณผ๋ฅผ 0๋๋ 1๋ก ๋ถ๋ฅํ๋ ๋ชจ๋ธ์ด๋ค. ์๋ฅผ ๋ค์ด, ๋ฉ์ผ์ ์คํธ์ฌ๋ถ์ ์์ ์ ์ฑ ์ฌ๋ถ๋ฅผ ํ๋จํ ๋ ์ฌ์ฉ๋๋ค.
์ผ๋ฐ์ ์ผ๋ก ์ฐธ, ๊ฑฐ์ง์ผ๋ก ๋ถ๋ฅ๋๋ ๋ชจ๋ธ์์ 1์ positive class, 0์ negative class๋ก ํํํ๋ค.
์ถํ์ 2๊ฐ ์ด์์ ์นดํ ๊ณ ๋ฆฌ๋ก ๋ถ๋ฅํ๋ multiple-class classification๋ ํ์ตํ ๊ฒ์ด๋ค.
Linear regression์ classification์ ์ ์ฉํ๋ฉด ์์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ์ค๋ฅธ์ชฝ์ ๋๋จ์ด์ง ๋ฐ์ดํฐ๊ฐ ์ถ๊ฐ๋ ๊ฒฝ์ฐ hํจ์(๊ฐ์คํจ์)๊ฐ ๋ฐ๋๊ธฐ ๋๋ฌธ์ ํ๋จ์ ์๋ชปํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ผ๊ธฐํ๋ค. ๋ฐ๋ผ์, classification์ linear regression์ ์ฌ์ฉํ ์ ์๋ค.
2. Hypothesis Representation
hํจ์(๊ฐ์คํจ์)์ ๊ฐ์ด 0 ๊ณผ 1์ฌ์ด์ ๊ฐ์ ๊ฐ๋๋ก Logistic Regression์ ์ฌ์ฉํ๋ค.
0≤hθ(x)≤1๋ฅผ ๋ง์กฑํ์ํค๊ธฐ ์ํด์ ๊ฐ์คํจ์ hθ(x)๋ฅผ g(z)์ ํํ๋ก ๋ณํํ๋ค.
์ด gํจ์๋ ์๋์ ๊ฐ์ ๊ณต์์ผ๋ก ๋ํ๋ด๋ฉฐ ์ด๋ฅผ sigmoid function ๋๋ Logistic function์ด๋ผ ํ๋ค. ์ด ํจ์๋ฅผ ๊ทธ๋ํ๋ก ํํํ๋ฉด ์๋์ ๊ฐ์ด ์๋งํ S์ ํํ๋ฅผ ๋ค๋ค.
hypothesis(hํจ์)์ ๊ฒฐ๊ณผ๋ x๊ฐ ๊ฒฐ์ ๋์์ ๋, y๊ฐ 1์ด ๋๋ ํ๋ฅ ์ ์๋ฏธํ๋ค.
๋ง์ฝ h ํจ์์ ๊ฐ์ด 0.7๋ก ๋์๋ค๋ฉด, ์ด๊ฒ์ ์ต์ข
๊ฒฐ๊ณผ(y)๊ฐ 1์ผ ๊ฐ๋ฅ์ฑ์ด 70%๋ค ๋ผ๊ณ ๋งํ ์ ์๋ค.
hํจ์๋ y = 1์ด ๋ ๊ฐ๋ฅ์ฑ์ด x์ theta์ ์ํด ๊ฒฐ์ ๋๋ค.
๋ฐ๋๋ก y = 0์ด ๋ ๊ฐ๋ฅ์ฑ์ 1 - (y๊ฐ 1์ด ๋ ๊ฐ๋ฅ์ฑ)์ด๋ค.
3. Decision Boundary
y๊ฐ 0์ธ์ง 1์ธ์ง ํ๋จํ๋ ๊ฒฝ๊ณ์ ์ decision boundary๋ผ ํ๊ณ , ์ด๋ ๊ฐ์ค ํจ์์ ์ํด ๊ฒฐ์ ๋๋ค.
y๊ฐ 1์ด ๋๋ ๊ธฐ์ค์ ์ดํด๋ณด๋ฉด h ํจ์๊ฐ 0.5๋ณด๋ค ํฐ ๊ฐ์ด ๋์ด์ผ ํ๊ณ ๊ทธ์ ๋์์ theta transpose * x์ ๊ฐ์ด 0๋ณด๋ค ํฐ ๊ฐ์ด ๋๋ ๊ฒ๊ณผ ๋์ผํฉ๋๋ค. ๋ฐ๋๋ก y๊ฐ 0์ด ๋๋ ๊ธฐ์ค์ ๋ณด๋ฉด h ํจ์๊ฐ 0.5๋ณด๋ค ์์ ๊ฐ์ด ๋์ด์ผ ํ๋ฉฐ ๋์์ theta transpose * x์ ๊ฐ์ด 0๋ณด๋ค ์์ผ๋ฉด y๊ฐ 0์ด ๋จ์ ์์ ์์ต๋๋ค.
๊ฐ๋ น hθ(x)≥0.5hθ(x)≥0.5 ์ผ๋ y = 1์ด๋ผ๊ณ ๊ฐ์ ํ๋ค๋ฉด, hθ(x)=g(θTx)≥0.5hθ(x)=g(θTx)≥0.5 ์ ๊ฐ๋ค. ๊ทธ๋ํ๋ฅผ ๋ณด๋ฉด z≥0z≥0์ผ๋ g(z)≥0.5g(z)≥0.5์ด๋ฏ๋ก z=θTx≥0z=θTx≥0 ์ผ๋ ์ ๊ฐ๋ค.
์ฆ θTx≥0 ์ด๋ฉด, y=1 ๋ก ์์ธกํ ์ ์๋ค.
์๋์ ๋ฐ์ดํฐ์์ ์์๋ก ์ต์ parameter θ๋ฅผ [-3,1,1]๋ก ์ค์ ํ๋ค๋ฉด. ์ด ์ต์ parameter๋ฅผ ๊ฐ์ง๊ณ ๋ค์๊ณผ ๊ฐ์ ๊ฒฐ๋ก ์ ๋ด๋ฆด ์ ์๋ค.
์ด ๋์ decision boundary๋ −3+x1+x2=0 ์ด๋ค. ์ ๊ทธ๋ฆผ์์ ๋ น์์ผ๋ก ํ์๋ ์ ์ด๋ค. ์ด์ training set์ ๋ค์ด์์ง ์์๋, ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ๋ํ๋๋ฉด x1 ๊ฐ๊ณผ x2 ๊ฐ์ ์ด์ฉํ์ฌ ์ขํ๋ฅผ ์ฐ์ด๋ณด๊ณ , decision boundary๋ณด๋ค ์์ชฝ์ ์ฐํ๋ฉด class 1์, ์๋์ชฝ์ ์ฐํ๋ฉด class 0์ ๋ฃ์ผ๋ฉด ๋๋ ๊ฒ์ด๋ค.
์ด ๋, decision boundary๋ θ ์ ์ํด ๊ฒฐ์ ๋๋ ๊ฒ์์ ๊ธฐ์ตํ์. Training data๋ parameter๋ฅผ ๊ฒฐ์ ํ๋ ๋ฐ์ ์ด์ฉ๋ ๋ฟ, decision boundary ์ ์ง์ ์ ์ผ๋ก ์ํฅ์ ๋ฏธ์น์ง๋ ์๋๋ค.
Non-Linear Decision Boundary
์๋์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด decision boundary๊ฐ ์ง์ ์ผ๋ก ์ฃผ์ด์ง์ง ์๋ ๊ฒฝ์ฐ๊ฐ ์๋ค.
์ด ๊ฒฝ์ฐ polynomial ํ๊ฒ feature์ ์ฐจ์์ ๋์ฌ non-linear decision boundary๋ฅผ ํํํ ์ ์๋ค.
4. Cost Function
์ ์ ํ parameter θ๋ฅผ ๊ตฌํ๋ ๋ฐฉ๋ฒ์ cost function์ ํ์ฉํ๋ฉด ๋๋ค.
์ด์ ์ Linear regresssion์์ ์ฌ์ฉํ๋ cost function๊ณผ ๋ค๋ฅธ cost function ์ฌ์ฉํด์ผ ํ๋ค.
Logistic function์ ๊ฒฐ๊ณผ๊ฐ linear์ด ์๋๋ฏ๋ก ๋ง์ local optima๋ฅผ ์์ฑํ๊ธฐ ๋๋ฌธ์ด๋ค. (convex function X)
Logistic regression์ cost function์ ๋ค์๊ณผ ๊ฐ๋ค.
๊ทธ๋ํ๋ฅผ ์์ธํ ํ์ด๋ณด์๋ฉด,
y=1์ผ ๋, hํจ์(๊ฐ์ค ํจ์)์ ์์ธก๊ฐ์ด 1์ด ๋์์ผํ๋ฏ๋ก
์ด๋ cost๋ 0์ด ๋๊ณ ,
y=1์ผ ๋, hํจ์(๊ฐ์ค ํจ์)์ ์์ธก๊ฐ์ด 0์ ๊ฐ๊น์ธ์๋ก cost๋ ๋ฌดํ๋๋ก ์ฆ๊ฐํ์ฌ cost๋ฅผ ์ต์ํํ๋ cost ํจ์๋ฅผ ํ์ธํ์๋ค.
y=0์ผ ๋, hํจ์(๊ฐ์ค ํจ์)์ ์์ธก๊ฐ์ด 0์ด ๋์์ผํ๋ฏ๋ก
์ด๋ cost๋ 0์ด ๋๊ณ ,
y=1์ผ ๋, hํจ์(๊ฐ์ค ํจ์)์ ์์ธก๊ฐ์ด 1์ ๊ฐ๊น์ธ์๋ก cost๋ ๋ฌดํ๋๋ก ์ฆ๊ฐํ์ฌ costํจ์์ ์ ํฉํ๋ค๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
Simplified Cost Function
y = 0๋๋ 1์ ๊ฐ๋ง ๊ฐ์ง๊ธฐ ๋๋ฌธ์ ๋ค์๊ณผ ๊ฐ์ด ํ๋์ ์์ผ๋ก ๊ฐ๋จํ ํํ ๊ฐ๋ฅํ๋ค.
์ ์ฒด cost function( J(θ))์ ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
vectorํํ๋ก ์์ ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค
Gradient Descent
cost๊ฐ ๊ฐ์ฅ ์์ ๊ฒฝ์ฐ์ parameter θ๋ฅผ ์ฐพ๊ธฐ ์ํด gradient descent๋ฅผ ์ ์ฉํ๋ค.
์ด๋, ๊ฐ θ ๊ฐ์ ๋์์ ๊ณ์ฐ(์ ๋ฐ์ดํธ)๋๋ค.
ํธ๋ฏธ๋ถํ๊ณ , ๋ํจ์(Derivative)๋ฅผ ๋์ ํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
์ฃผ์ ! ) ์ฌ๊ธฐ์ linear regression์ gradient descent์ ํํ๋ ๊ฐ์ง๋ง h ํจ์๊ฐ ๋ค๋ฅด๋ค.
- Linear regression
- Logistic regression
vector ํ์์ผ๋ก ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
5. Advanced Optimization
์์์ cost๊ฐ ๊ฐ์ฅ ์์ ๊ฒฝ์ฐ์ parameter θ๋ฅผ ์ฐพ๊ธฐ ์ํด gradient descent๋ฅผ ์์๋ณด์๋ค.
gradient descent ์ธ์ ๋ค๋ฅธ optimization algorithm๋ ์๋ค.
- Conjugate gradient
- BFGS (Broyden-Fletcher-Goldfarb-Shanno)
- L-BFGS (Limited memory - BFGS)
์ด ์๊ณ ๋ฆฌ์ฆ์ gradient descent ๋ณด๋ค ๋ ๋น ๋ฅด๊ณ , learning rate(์ํ)๋ฅผ ์ ํํ์ง ์์๋ ๋๋ค๋ ์ฅ์ ์ด ์์ง๋ง,
๋ ๋ณต์กํ ์๊ณ ๋ฆฌ์ฆ์ด๋ผ๋ ๋จ์ ๋ ์๋ค.
6. Multiclass Classification
์์์๋ y๊ฐ 0๋๋ 1์ ๊ฒฐ๊ณผ๊ฐ๋ง์ ๊ฐ์ง๋ binary classification์ ์์๋ณด์๋ค.
์ด์ ๋ ๊ทธ ๊ฐ๋ ์ ํ์ฅํ์ฌ 2๊ฐ ์ด์์ ์นดํ ๊ณ ๋ฆฌ๋ก ๋ถ๋ฅํ๋ multiclass classification์ ๋ํ์ฌ ์์๋ณด๋๋ก ํ์.
multiclass classification์ ์์
ex) email tagging, medical diagram, weather
y๊ฐ n๊ฐ์ ์นดํ ๊ณ ๋ฆฌ๋ก ๊ฒฐ๊ณผ๊ฐ ๋์ฌ ๋, n๊ฐ์ binary classification ๋ฌธ์ ๋ก ๋๋์ด ์๊ฐํ๋ค. (one VS all)
์ด one VS all ๋ฐฉ์์ ์ ๋ฆฌํ์๋ฉด,
hypothesis function์ ์ฃผ์ด์ง x๊ฐ class i ์ ๋ค์ด๊ฐ ๊ฐ๋ฅ์ฑ์ ๋ํ๋ธ๋ค.
์ฆ, hypothesis function์ด ๊ฐ์ฅ ํฐ ๊ฒ์ ํด๋น class์ ์ํ ํ๋ฅ ์ด ๊ฐ์ฅ ํฌ๋ค๋ ์๋ฏธ์ด๋ค.
๐ ์์ ํด์ผ ํ ๊ฒ : ์์ ์ ๋ถ ํ์ ์ฌ๊ฐํ ์์ ๋ค์ด๊ฐ ํ์์ผ๋ก ๋ฐ๊พธ๊ธฐ!!!!!
์์ ์ ๋ฆฌ!!!
'๐ค AI > Machine Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
05. Regularization (0) | 2022.03.25 |
---|---|
03. Linear Regression with Multiple Variable (1) | 2022.02.10 |
02. Linear regression with one variable (1) | 2022.02.04 |
01. introduction (0) | 2022.01.20 |
Machine Learning ์ ๋ฆฌ (0) | 2022.01.20 |