๊ด€๋ฆฌ ๋ฉ”๋‰ด

Done is Better Than Perfect

04. Logistic Regression ๋ณธ๋ฌธ

๐Ÿค– AI/Machine Learning

04. Logistic Regression

jimingee 2022. 3. 23. 21:37

๋ชฉ์ฐจ

    1.  Classification

    classification์€ ๋ฐ์ดํ„ฐ์˜ ๊ฒฐ๊ณผ๋ฅผ 0๋˜๋Š” 1๋กœ ๋ถ„๋ฅ˜ํ•˜๋Š” ๋ชจ๋ธ์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ฉ”์ผ์˜ ์ŠคํŒธ์—ฌ๋ถ€์™€ ์•”์˜ ์•…์„ฑ ์—ฌ๋ถ€๋ฅผ ํŒ๋‹จํ•  ๋•Œ ์‚ฌ์šฉ๋œ๋‹ค.

    ์ผ๋ฐ˜์ ์œผ๋กœ ์ฐธ, ๊ฑฐ์ง“์œผ๋กœ ๋ถ„๋ฅ˜๋˜๋Š” ๋ชจ๋ธ์—์„œ 1์„ positive class, 0์„ negative class๋กœ ํ‘œํ˜„ํ•œ๋‹ค. 

    ์ถ”ํ›„์— 2๊ฐœ ์ด์ƒ์˜ ์นดํ…Œ๊ณ ๋ฆฌ๋กœ ๋ถ„๋ฅ˜ํ•˜๋Š” multiple-class classification๋„ ํ•™์Šตํ•  ๊ฒƒ์ด๋‹ค.


    Linear regression์„ classification์— ์ ์šฉํ•˜๋ฉด ์œ„์˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด ์˜ค๋ฅธ์ชฝ์— ๋™๋–จ์–ด์ง„ ๋ฐ์ดํ„ฐ๊ฐ€ ์ถ”๊ฐ€๋  ๊ฒฝ์šฐ hํ•จ์ˆ˜(๊ฐ€์„คํ•จ์ˆ˜)๊ฐ€ ๋ฐ”๋€Œ๊ธฐ ๋•Œ๋ฌธ์— ํŒ๋‹จ์„ ์ž˜๋ชปํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ์•ผ๊ธฐํ•œ๋‹ค. ๋”ฐ๋ผ์„œ, classification์—  linear regression์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์—†๋‹ค. 

     

    2.  Hypothesis Representation

    hํ•จ์ˆ˜(๊ฐ€์„คํ•จ์ˆ˜)์˜ ๊ฐ’์ด 0 ๊ณผ 1์‚ฌ์ด์˜ ๊ฐ’์„ ๊ฐ–๋„๋ก  Logistic Regression์„ ์‚ฌ์šฉํ•œ๋‹ค.

    0≤hθ(x)≤1๋ฅผ ๋งŒ์กฑํ•˜์‹œํ‚ค๊ธฐ ์œ„ํ•ด์„œ ๊ฐ€์„คํ•จ์ˆ˜ hθ(x)๋ฅผ g(z)์˜ ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค. 

    ์ด gํ•จ์ˆ˜๋Š” ์•„๋ž˜์™€ ๊ฐ™์€ ๊ณต์‹์œผ๋กœ ๋‚˜ํƒ€๋‚ด๋ฉฐ ์ด๋ฅผ sigmoid function ๋˜๋Š” Logistic function์ด๋ผ ํ•œ๋‹ค. ์ด ํ•จ์ˆ˜๋ฅผ ๊ทธ๋ž˜ํ”„๋กœ ํ‘œํ˜„ํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™์ด ์™„๋งŒํ•œ S์ž ํ˜•ํƒœ๋ฅผ ๋ค๋‹ค.


    hypothesis(hํ•จ์ˆ˜)์˜ ๊ฒฐ๊ณผ๋Š” x๊ฐ€ ๊ฒฐ์ •๋˜์—ˆ์„ ๋•Œ, y๊ฐ€ 1์ด ๋˜๋Š” ํ™•๋ฅ ์„ ์˜๋ฏธํ•œ๋‹ค.

    ๋งŒ์•ฝ h ํ•จ์ˆ˜์˜ ๊ฐ’์ด 0.7๋กœ ๋‚˜์™”๋‹ค๋ฉด, ์ด๊ฒƒ์€ ์ตœ์ข… ๊ฒฐ๊ณผ(y)๊ฐ€ 1์ผ ๊ฐ€๋Šฅ์„ฑ์ด 70%๋‹ค ๋ผ๊ณ  ๋งํ•  ์ˆ˜ ์žˆ๋‹ค.

    hํ•จ์ˆ˜๋Š” y = 1์ด ๋  ๊ฐ€๋Šฅ์„ฑ์ด x์™€ theta์— ์˜ํ•ด ๊ฒฐ์ •๋œ๋‹ค.

    ๋ฐ˜๋Œ€๋กœ y = 0์ด ๋  ๊ฐ€๋Šฅ์„ฑ์€ 1 - (y๊ฐ€ 1์ด ๋  ๊ฐ€๋Šฅ์„ฑ)์ด๋‹ค.

    3.  Decision Boundary 

    y๊ฐ€ 0์ธ์ง€ 1์ธ์ง€ ํŒ๋‹จํ•˜๋Š” ๊ฒฝ๊ณ„์„ ์„ decision boundary๋ผ ํ•˜๊ณ , ์ด๋Š” ๊ฐ€์„ค ํ•จ์ˆ˜์— ์˜ํ•ด ๊ฒฐ์ • ๋œ๋‹ค. 

     

    y๊ฐ€ 1์ด ๋˜๋Š” ๊ธฐ์ค€์„ ์‚ดํŽด๋ณด๋ฉด h ํ•จ์ˆ˜๊ฐ€ 0.5๋ณด๋‹ค ํฐ ๊ฐ’์ด ๋˜์–ด์•ผ ํ•˜๊ณ  ๊ทธ์™€ ๋™์‹œ์— theta transpose * x์˜ ๊ฐ’์ด 0๋ณด๋‹ค ํฐ ๊ฐ’์ด ๋˜๋Š” ๊ฒƒ๊ณผ ๋™์ผํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋Œ€๋กœ y๊ฐ€ 0์ด ๋˜๋Š” ๊ธฐ์ค€์„ ๋ณด๋ฉด h ํ•จ์ˆ˜๊ฐ€ 0.5๋ณด๋‹ค ์ž‘์€ ๊ฐ’์ด ๋˜์–ด์•ผ ํ•˜๋ฉฐ ๋™์‹œ์— theta transpose * x์˜ ๊ฐ’์ด 0๋ณด๋‹ค ์ž‘์œผ๋ฉด y๊ฐ€ 0์ด ๋จ์„ ์•Œ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

     

    ๊ฐ€๋ น hθ(x)0.5hθ(x)≥0.5 ์ผ๋•Œ y = 1์ด๋ผ๊ณ  ๊ฐ€์ •ํ•œ๋‹ค๋ฉด, hθ(x)=g(θTx)0.5hθ(x)=g(θTx)≥0.5 ์™€ ๊ฐ™๋‹ค. ๊ทธ๋ž˜ํ”„๋ฅผ ๋ณด๋ฉด z0z≥0์ผ๋•Œ g(z)0.5g(z)≥0.5์ด๋ฏ€๋กœ z=θTx0z=θTx≥0 ์ผ๋•Œ ์™€ ๊ฐ™๋‹ค.

    ์ฆ‰ θTx0 ์ด๋ฉด, y=1 ๋กœ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋‹ค.

     

     

     

    ์•„๋ž˜์˜ ๋ฐ์ดํ„ฐ์—์„œ ์ž„์˜๋กœ ์ตœ์  parameter θ๋ฅผ [-3,1,1]๋กœ ์„ค์ •ํ–ˆ๋‹ค๋ฉด. ์ด ์ตœ์  parameter๋ฅผ ๊ฐ€์ง€๊ณ  ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฒฐ๋ก ์„ ๋‚ด๋ฆด ์ˆ˜ ์žˆ๋‹ค. 

    ์ด ๋•Œ์˜ decision boundary๋Š” −3+x1+x2=0 ์ด๋‹ค. ์œ„ ๊ทธ๋ฆผ์—์„œ ๋…น์ƒ‰์œผ๋กœ ํ‘œ์‹œ๋œ ์„ ์ด๋‹ค. ์ด์ œ training set์— ๋“ค์–ด์žˆ์ง€ ์•Š์•˜๋˜, ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๊ฐ€ ๋‚˜ํƒ€๋‚˜๋ฉด x1 ๊ฐ’๊ณผ x2 ๊ฐ’์„ ์ด์šฉํ•˜์—ฌ ์ขŒํ‘œ๋ฅผ ์ฐ์–ด๋ณด๊ณ , decision boundary๋ณด๋‹ค ์œ„์ชฝ์— ์ฐํžˆ๋ฉด class 1์—, ์•„๋ž˜์ชฝ์— ์ฐํžˆ๋ฉด class 0์— ๋„ฃ์œผ๋ฉด ๋˜๋Š” ๊ฒƒ์ด๋‹ค.

     

    ์ด ๋•Œ, decision boundary๋Š” θ ์— ์˜ํ•ด ๊ฒฐ์ •๋˜๋Š” ๊ฒƒ์ž„์„ ๊ธฐ์–ตํ•˜์ž. Training data๋Š” parameter๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๋ฐ์— ์ด์šฉ๋  ๋ฟ, decision boundary ์— ์ง์ ‘์ ์œผ๋กœ ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€๋Š” ์•Š๋Š”๋‹ค.

     

     

    Non-Linear Decision Boundary

    ์•„๋ž˜์˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด decision boundary๊ฐ€ ์ง์„ ์œผ๋กœ ์ฃผ์–ด์ง€์ง€ ์•Š๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ๋‹ค.

     

    ์ด ๊ฒฝ์šฐ polynomial ํ•˜๊ฒŒ feature์˜ ์ฐจ์›์„ ๋†’์—ฌ non-linear decision boundary๋ฅผ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค. 

     

     

    4. Cost Function

    ์ ์ ˆํ•œ parameter θ๋ฅผ ๊ตฌํ•˜๋Š” ๋ฐฉ๋ฒ•์€ cost function์„ ํ™œ์šฉํ•˜๋ฉด ๋œ๋‹ค. 

    ์ด์ „์— Linear regresssion์—์„œ ์‚ฌ์šฉํ–ˆ๋˜ cost function๊ณผ ๋‹ค๋ฅธ cost function ์‚ฌ์šฉํ•ด์•ผ ํ•œ๋‹ค.
    Logistic function์€ ๊ฒฐ๊ณผ๊ฐ€ linear์ด ์•„๋‹ˆ๋ฏ€๋กœ ๋งŽ์€ local optima๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. (convex function X)

     

    Logistic regression์˜ cost function์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.


     

    ๊ทธ๋ž˜ํ”„๋ฅผ ์ž์„ธํžˆ ํ’€์–ด๋ณด์ž๋ฉด,

    y=1์ผ ๋•Œ, hํ•จ์ˆ˜(๊ฐ€์„ค ํ•จ์ˆ˜)์˜ ์˜ˆ์ธก๊ฐ’์ด 1์ด ๋‚˜์™€์•ผํ•˜๋ฏ€๋กœ

    ์ด๋•Œ cost๋Š” 0์ด ๋˜๊ณ ,

    y=1์ผ ๋•Œ, hํ•จ์ˆ˜(๊ฐ€์„ค ํ•จ์ˆ˜)์˜ ์˜ˆ์ธก๊ฐ’์ด 0์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก cost๋Š” ๋ฌดํ•œ๋Œ€๋กœ ์ฆ๊ฐ€ํ•˜์—ฌ cost๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” cost ํ•จ์ˆ˜๋ฅผ ํ™•์ธํ•˜์˜€๋‹ค. 

     

     

     

     

     

     

    y=0์ผ ๋•Œ, hํ•จ์ˆ˜(๊ฐ€์„ค ํ•จ์ˆ˜)์˜ ์˜ˆ์ธก๊ฐ’์ด 0์ด ๋‚˜์™€์•ผํ•˜๋ฏ€๋กœ

    ์ด๋•Œ cost๋Š” 0์ด ๋˜๊ณ ,

    y=1์ผ ๋•Œ, hํ•จ์ˆ˜(๊ฐ€์„ค ํ•จ์ˆ˜)์˜ ์˜ˆ์ธก๊ฐ’์ด 1์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก cost๋Š” ๋ฌดํ•œ๋Œ€๋กœ ์ฆ๊ฐ€ํ•˜์—ฌ costํ•จ์ˆ˜์— ์ ํ•ฉํ•˜๋‹ค๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. 

     

     

     

     

     

     

    Simplified Cost Function

    y =  0๋˜๋Š” 1์˜ ๊ฐ’๋งŒ ๊ฐ€์ง€๊ธฐ ๋•Œ๋ฌธ์— ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ•˜๋‚˜์˜ ์‹์œผ๋กœ ๊ฐ„๋‹จํžˆ ํ‘œํ˜„ ๊ฐ€๋Šฅํ•˜๋‹ค.

    ์ „์ฒด cost function( J(θ))์„ ํ‘œํ˜„ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

    vectorํ˜•ํƒœ๋กœ ์‹์„ ํ‘œํ˜„ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค

     

     

    Gradient Descent

    cost๊ฐ€ ๊ฐ€์žฅ ์ž‘์€ ๊ฒฝ์šฐ์˜ parameter θ๋ฅผ ์ฐพ๊ธฐ ์œ„ํ•ด gradient descent๋ฅผ ์ ์šฉํ•œ๋‹ค.

     ์ด๋•Œ, ๊ฐ θ ๊ฐ’์€ ๋™์‹œ์— ๊ณ„์‚ฐ(์—…๋ฐ์ดํŠธ)๋œ๋‹ค. 

    ํŽธ๋ฏธ๋ถ„ํ•˜๊ณ , ๋„ํ•จ์ˆ˜(Derivative)๋ฅผ ๋Œ€์ž…ํ•˜๋ฉด  ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

    ์ฃผ์˜ ! ) ์—ฌ๊ธฐ์„œ linear regression์˜ gradient descent์™€ ํ˜•ํƒœ๋Š” ๊ฐ™์ง€๋งŒ h ํ•จ์ˆ˜๊ฐ€ ๋‹ค๋ฅด๋‹ค. 

    • Linear regression
    • Logistic regression

    vector ํ˜•์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

     

    5.  Advanced Optimization

    ์•ž์—์„œ cost๊ฐ€ ๊ฐ€์žฅ ์ž‘์€ ๊ฒฝ์šฐ์˜ parameter θ๋ฅผ ์ฐพ๊ธฐ ์œ„ํ•ด gradient descent๋ฅผ ์•Œ์•„๋ณด์•˜๋‹ค.

    gradient descent ์™ธ์— ๋‹ค๋ฅธ optimization algorithm๋„ ์žˆ๋‹ค.

    • Conjugate gradient
    • BFGS (Broyden-Fletcher-Goldfarb-Shanno)
    • L-BFGS (Limited memory - BFGS)

    ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ gradient descent ๋ณด๋‹ค ๋” ๋น ๋ฅด๊ณ , learning rate(์•ŒํŒŒ)๋ฅผ ์„ ํƒํ•˜์ง€ ์•Š์•„๋„ ๋œ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์ง€๋งŒ,

    ๋” ๋ณต์žกํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋ผ๋Š” ๋‹จ์ ๋„ ์žˆ๋‹ค. 

     

     

    6.  Multiclass Classification

     

    ์•ž์—์„œ๋Š” y๊ฐ€ 0๋˜๋Š” 1์˜ ๊ฒฐ๊ณผ๊ฐ’๋งŒ์„ ๊ฐ€์ง€๋Š” binary classification์„ ์•Œ์•„๋ณด์•˜๋‹ค.

    ์ด์ œ๋Š” ๊ทธ ๊ฐœ๋…์„ ํ™•์žฅํ•˜์—ฌ 2๊ฐœ ์ด์ƒ์˜ ์นดํ…Œ๊ณ ๋ฆฌ๋กœ ๋ถ„๋ฅ˜ํ•˜๋Š” multiclass classification์— ๋Œ€ํ•˜์—ฌ ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž.

    multiclass classification์˜ ์˜ˆ์‹œ
    ex) email tagging, medical diagram, weather

    y๊ฐ€ n๊ฐœ์˜ ์นดํ…Œ๊ณ ๋ฆฌ๋กœ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜ฌ ๋•Œ, n๊ฐœ์˜ binary classification ๋ฌธ์ œ๋กœ ๋‚˜๋ˆ„์–ด ์ƒ๊ฐํ•œ๋‹ค. (one VS all)

     

     

    ์ด one VS all ๋ฐฉ์‹์„ ์ •๋ฆฌํ•˜์ž๋ฉด,

     

    ์ด๊ฑฐ text๋กœ ์ˆ˜์ •ํ•˜๊ธฐ!! ><

    hypothesis function์€ ์ฃผ์–ด์ง„ x๊ฐ€ class i ์— ๋“ค์–ด๊ฐˆ ๊ฐ€๋Šฅ์„ฑ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. 

    ์ฆ‰, hypothesis function์ด ๊ฐ€์žฅ ํฐ ๊ฒƒ์€ ํ•ด๋‹น class์— ์†ํ•  ํ™•๋ฅ ์ด ๊ฐ€์žฅ ํฌ๋‹ค๋Š” ์˜๋ฏธ์ด๋‹ค.

     

    ๐Ÿ˜€  ์ˆ˜์ •ํ•ด์•ผ ํ• ๊ฒƒ : ์‹์„ ์ „๋ถ€ ํšŒ์ƒ‰ ์‚ฌ๊ฐํ˜• ์•ˆ์— ๋“ค์–ด๊ฐ„ ํ˜•์‹์œผ๋กœ ๋ฐ”๊พธ๊ธฐ!!!!!

    ์ˆ˜์‹ ์ •๋ฆฌ!!!

    '๐Ÿค– AI > Machine Learning' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

    05. Regularization  (0) 2022.03.25
    03. Linear Regression with Multiple Variable  (1) 2022.02.10
    02. Linear regression with one variable  (1) 2022.02.04
    01. introduction  (0) 2022.01.20
    Machine Learning ์ •๋ฆฌ  (0) 2022.01.20
    Comments