๊ด€๋ฆฌ ๋ฉ”๋‰ด

Done is Better Than Perfect

02. Linear regression with one variable ๋ณธ๋ฌธ

๐Ÿค– AI/Machine Learning

02. Linear regression with one variable

jimingee 2022. 2. 4. 16:40
 

์ด๋ฒˆ์—๋Š” ์•ž์„œ ๊ณต๋ถ€ํ–ˆ๋˜ Supervised Learning์—์„œ regression์„ ๋” ์ž์„ธํžˆ ์‚ดํŽด๋ณผ ๊ฒƒ์ด๋‹ค.

์ง‘ ๊ฐ’์„ ์˜ˆ์ธกํ•˜๋Š” Linear Regression์„ ํ•™์Šตํ•˜๋ฉฐ cost function๊ณผ gradient descent์˜ ๊ฐœ๋…๋„ ํ•จ๊ป˜ ์•Œ์•„๋ณด์ž.

 


1.  Linear Regression Model

๋ณ€์ˆ˜๊ฐ€ 1๊ฐœ์ธ linear regression์„ univariate linear regression์ด๋ผ ํ‘œํ˜„ํ•œ๋‹ค.

์ €๋ฒˆ์— ์˜ˆ์‹œ๋กœ ํ•™์Šตํ–ˆ๋˜ 'Housing Price' ์˜ˆ์ œ์—์„œ ์‚ฌ์ด์ฆˆ(x)์— ๋”ฐ๋ฅธ ์ง‘์˜ ๊ฐ€๊ฒฉ(y)์„ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค. 

์œ„์˜ ๊ทธ๋ž˜ํ”„์—์„œ๋Š” ์ง‘์˜ ์‚ฌ์ด์ฆˆ๊ฐ€ ์ปค์ง€๋ฉด ๊ฐ€๊ฒฉ์ด ๋†’์•„์ง€๋Š” ์ผ์ฐจ ๋ฐฉ์ •์‹์œผ๋กœ ํ‘œํ˜„ํ•˜์˜€๋‹ค. 

** ์—ฌ๊ธฐ์„œ ์ง์„ ์€ input(feature)์™€ output(target)์˜ ๊ด€๊ณ„๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ํ•จ์ˆ˜์ด๋‹ค.


์ด ๊ฐœ๋…์„ ์•„๋ž˜์™€ ๊ฐ™์ด ๋„์‹ํ™”ํ•ด๋ณด๋„๋ก ํ•˜์ž.

์œ„ ๊ทธ๋ฆผ์—์„œ h๋Š” ์ง์„  ํ•จ์ˆ˜๋ฅผ ์˜๋ฏธํ•˜๊ณ , ๊ฐ€์„คํ•จ์ˆ˜(hypothesis function)๋ผ ๋ถ€๋ฅธ๋‹ค. ๊ฐ€์„คํ•จ์ˆ˜(hํ•จ์ˆ˜)๋ฅผ ์ด์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ(x)๋ฅผ ์ž…๋ ฅํ•˜๋ฉด ๊ทธ์— ์ƒ์‘ํ•˜๋Š” ์˜ˆ์ธก ๊ฒฐ๊ณผ(y)๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค. 

๋จธ์‹ ๋Ÿฌ๋‹์€ ์šฐ๋ฆฌ๊ฐ€ ์•Œ๊ณ ์ž ํ•˜๋Š” ๊ฐ€์„ค ํ•จ์ˆ˜(h ํ•จ์ˆ˜)๋ฅผ ์ฐพ์•„์ค€๋‹ค.

training set์ด ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ฑฐ์ณ h ํ•จ์ˆ˜(hypothesis function, ๊ฐ€์„คํ•จ์ˆ˜)๋ฅผ ์ƒ์„ฑํ•œ๋‹ค.

 

 

 

2. Cost Funtion

(cost function = squared error function = mean squared error)

ํ•œ ์ค„ ์š”์•ฝ : cost function์€  ๊ฐ€์„ค ํ•จ์ˆ˜(h)์—์„œ ์ตœ์ ์˜ parameter θ ๋ฅผ ์ฐพ๋Š” ๋„๊ตฌ์ด๋‹ค. 

 

์šฐ๋ฆฌ๊ฐ€ ๊ฐ€์„คํ•จ์ˆ˜๋ฅผ ์ž˜ ์„ค์ •ํ–ˆ๋‹ค๊ณ  ์–ด๋–ป๊ฒŒ ์•Œ ์ˆ˜ ์žˆ์„๊นŒ?

๊ฐ€์„คํ•จ์ˆ˜๋ฅผ ์ด์šฉํ•ด ๊ตฌํ•œ ์˜ˆ์ธก๊ฐ’๊ณผ ์‹ค์ œ๊ฐ’์ด ์ฐจ์ด๊ฐ€ ์ž‘์„์ˆ˜๋ก ์ข‹์€ ๊ฐ€์„คํ•จ์ˆ˜๋ผ ๋งํ•  ์ˆ˜ ์žˆ๋‹ค. [์ดํ•ด ์ฐธ๊ณ , MSE]

(์—ฌ๊ธฐ์„œ ์˜ˆ์ธก๊ฐ’๊ณผ ์‹ค์ œ๊ฐ’์ด ์ฐจ์ด๋ฅผ cost๋ผ ํ•œ๋‹ค.)

 

์ด์ „์— ๊ตฌํ•œ ์ผ์ฐจ๋ฐฉ์ •์‹์˜ ๊ฐ€์„คํ•จ์ˆ˜๋ฅผ  $h_{\theta}(x) = \theta_{0} + \theta_{1}x$ ๋ผ ํ•˜์ž. 

์—ฌ๊ธฐ์„œ $\theta_{0}, \theta_{1} $๋ฅผ parameter๋ผ ํ•œ๋‹ค.

 

 

cost๋Š” '์˜ˆ์ธก๊ฐ’(h) - ์‹ค์ œ๊ฐ’(y)'๋กœ ์ •์˜ํ•œ๋‹ค. ์ด ๊ฐ’์ด (-) ๊ฐ’์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ์ œ๊ณฑ์„ ์ ์šฉํ•œ๋‹ค. ์ด๋ฅผ ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

 

(m์€ training set์˜ ๊ฐœ์ˆ˜์ด๋‹ค.) ๋ชจ๋“  cost ๊ฐ’์„ ์ œ๊ณฑํ•˜๊ณ  $2m$์„  ๋‚˜๋ˆ„์–ด ํ‰๊ท ๊ฐ’์„ ๊ตฌํ•œ๋‹ค. ์œ„์˜ ์‹์ด cost function์ด๋‹ค.

์ด cost function $J(\theta_{0}, \theta_{1})$์˜ ๊ฐ’์„ ์ตœ์†Œํ™”ํ•˜๋Š” parameter $\theta_{0}, \theta_{1}$์„ ๊ตฌํ•˜๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ด๋‹ค.

 $h_{\theta}(x) = \theta_{0} + \theta_{1}x$์—์„œ $\theta_{0} = 0$ ์ด๋ผ ๊ฐ€์ •ํ•˜๊ณ  $ \theta_{1}$์— ์—ฌ๋Ÿฌ ๊ฐ’์„ ๋Œ€์ž…ํ•ด๋ณด์ž.

์•„๋ž˜ ์˜ค๋ฅธ์ชฝ ๊ทธ๋ฆผ์€ ๊ฐ $\theta_{1}$์˜ ๊ฐ’์— ๋”ฐ๋ฅธ cost function์˜ ๊ฐ’์„ ์˜๋ฏธํ•œ๋‹ค. $ \theta_{1} = 1$ ์ผ๋•Œ cost function($J$)๊ฐ€ ์ตœ์†Œ๊ฐ’์„ ๊ฐ–๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. 

์ด ์˜๋ฏธ๋Š” $ \theta_{1} = 1$์ผ๋•Œ ๊ฐ€์„ค ํ•จ์ˆ˜๊ฐ€ ๋ฐ์ดํ„ฐ์— ๊ฐ€์žฅ ์ž˜ ์ ํ•ฉ ๋˜์—ˆ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. 

 

 

์ด์ œ 1๊ฐœ์˜ parameter์—์„œ 2๊ฐœ์˜ parameter๋กœ ํ™•์žฅํ•ด๋ณด์ž.

2๊ฐœ์˜ parameter($\theta_{0}, \theta_{1} $)์— ๋Œ€ํ•˜์—ฌ  cost function($J$)์„ ๊ทธ๋ฆฌ๋ฉด ์•„๋ž˜์™€ ๊ฐ™์ด 3์ฐจ์›์œผ๋กœ ํ‘œํ˜„๋œ๋‹ค.

 

์—ฌ๊ธฐ์„œ cost function($J$)์ด ๊ฐ€์žฅ ์ž‘์€ ๊ฐ’์„ ๊ฐ€์งˆ ๋•Œ, parameter $\theta_{0}, \theta_{1}$์ด ์ ํ•ฉํ•˜๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. 

์ด์ œ $J$๊ฐ€ ์ตœ์†Œํ™” ๋˜๋„๋ก  $\theta_{0}, \theta_{1}$์„ ์ž๋™์œผ๋กœ ์ฐพ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž.

 

 

 

3.  Gradient Descent 

์•ž์—์„œ ๊ฐ€์„คํ•จ์ˆ˜(hypothesis function)์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์•˜๊ณ , ์‹ค์ œ training data์— ์–ผ๋งˆ๋‚˜ ์ž˜ ์ ํ•ฉํ•˜๋Š” ์ง€ ์•Œ์•„๋ณด๊ธฐ ์œ„ํ•ด cost function์„ ํ•™์Šตํ•˜์˜€๋‹ค. cost function์„ ํ†ตํ•ด $\theta$์˜ ๊ฐ’์— ๋”ฐ๋ผ ๊ฐ€์„คํ•จ์ˆ˜(h)์˜ ์ •ํ™•๋„๋ฅผ ์ธก์ •ํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค. ํ•˜์ง€๋งŒ, ์–ด๋–ป๊ฒŒ ์ ์ ˆํ•œ $\theta$๊ฐ’์„ ์ฐพ๋Š”์ง€ ์•Œ ์ˆ˜ ์—†์—ˆ๋‹ค. ์ด๋ฒˆ์—๋Š” ๊ฐ€์žฅ ์ ํ•ฉํ•œ ๊ฐ€์„คํ•จ์ˆ˜(h)๋ฅผ ํŠน์ •ํ•˜๊ธฐ ์œ„ํ•œ $\theta$๋ฅผ ์ฐพ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์•Œ์•„๋ณด๋„๋ก ํ•œ๋‹ค. 

ํ•œ ์ค„ ์š”์•ฝ : Gradient Descent๋Š” ๊ฐ€์žฅ ์ ํ•ฉํ•œ ๊ฐ€์„ค ํ•จ์ˆ˜๋ฅผ ์ฐพ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค. 
(๋” ์ •ํ™•ํ•˜๊ฒŒ ๋งํ•˜์ž๋ฉด cost function์„ ์ตœ์†Œํ™”ํ•˜๋Š” $\theta$ parameter๋ฅผ ์ฐพ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜)

 

Gradient descent algorithm์€ ๋ง ๊ทธ๋Œ€๋กœ ๊ฒฝ์‚ฌ๋ฉด์„ ๋”ฐ๋ผ ํ•˜๊ฐ•ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค.

๋‘ ๊ฐœ์˜ parameter($\theta_{0}, \theta_{1})์„ ๋ณ€๊ฒฝํ•˜์—ฌ cost function์„ ์ตœ์†Œํ™”(minimize)ํ•œ๋‹ค.

 

์•„๋ž˜์˜ ๊ทธ๋ž˜ํ”„๋Š” 2๊ฐœ์˜ feature๋ฅผ ๊ฐ€์ง„ cost function์˜ ๊ทธ๋ž˜ํ”„์ด๋‹ค. 

์‹œ์ž‘์ ์„ ์™ผ์ชฝ์˜ ๋ด‰์šฐ๋ฆฌ๋กœ ์žก๋Š”๋‹ค๋ฉด ๊ฒฝ์‚ฌ๋ฉด์„ ๋”ฐ๋ผ ์•„๋ž˜์™€ ๊ฐ™์€ ์ตœ์ €์ ์— ๋„๋‹ฌํ•  ๊ฒƒ์ด๋‹ค.

๋งŒ์•ฝ ์‹œ์ž‘ ์ ์„ ๋‹ค๋ฅธ ๊ณณ์—์„œ ์‹œ์ž‘ํ–ˆ์„ ๊ฒฝ์šฐ, ์œ„์™€ ๋‹ค๋ฅธ ๊ฒฝ๋กœ์˜ ์ตœ์ €์ ์— ๋„๋‹ฌํ•œ๋‹ค.  ์ด๋ ‡๊ฒŒ ๋‚˜์˜จ ์ตœ์ €์ ์€ local minimum์ด๋ผ ํ•œ๋‹ค.

์ตœ์  parameter๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด์„œ๋Š” local minimum ๋“ค ์ค‘์—์„œ๋„ ๊ฐ€์žฅ ์ž‘์€ global minimum์„ ๊ตฌํ•ด์•ผ ํ•œ๋‹ค.

 

 

์ตœ์  cost function์„ ๊ตฌํ•˜๊ธฐ ์œ„ํ•œ gradient descent์˜ ์ˆ˜์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. ์ด ์ˆ˜์‹์€ ํ•œ ์ ์— ์ˆ˜๋ ดํ•  ๋•Œ ๊นŒ์ง€ ๋ฐ˜๋ณต๋œ๋‹ค.

์ˆ˜์‹์—์„œ $\alpha $๋Š” 'learning rate'๋ผ ํ•œ๋‹ค. ๊ฐ„๋‹จํžˆ ์„ค๋ช…ํ•˜์ž๋ฉด step(๋ณดํญ)์ด๋ผ ์ดํ•ดํ•˜๋ฉด ๋œ๋‹ค.

๋ณดํญ์ด ํฐ ์‚ฌ๋žŒ์ผ์ˆ˜๋ก ํ•œ ๋ฒˆ์— ๊ฑท๋Š” ๊ธธ์ด๊ฐ€ ํฌ๊ณ , ๋ณดํญ์ด ์ž‘์€ ์‚ฌ๋žŒ์€ ์ด์ด๊ฑธ์Œ์œผ๋กœ ๊ฑท๋Š” ์›๋ฆฌ์™€ ๋น„์Šทํ•˜๋‹ค.

 

๊ทธ๋ฆฌ๊ณ  ๋‘ ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ  $\theta_{0}$์™€  $\theta_{1}$๋Š” ๋™์‹œ์— ์—…๋ฐ์ดํŠธ๋˜๋ฏ€๋กœ simultaneous update๋ผ ํ•œ๋‹ค.

(์‹ค์ œ๋กœ๋Š” $\theta_{0}, \theta_{1}$๋ฟ๋งŒ์•„๋‹ˆ๋ผ $ ~ \theta_{n}$ ๊นŒ์ง€ ์žˆ๋‹ค.)

 

, 

 

์ˆ˜์‹์„ ํ•˜๋‚˜์”ฉ ๋œฏ์–ด๋ณด๋„๋ก ํ•˜์ž. ์ˆ˜์‹์—์„œ ๋ฏธ๋ถ„์€ ์™œ ์žˆ๋Š” ๊ฑธ๊นŒ?

์šฐ์„  ์ˆ˜์‹์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด $\theta_{1}$๋งŒ ์‚ดํŽด ๋ณด๋ฉด,

๋งŒ์•ฝ ํ˜„์žฌ  $\theta_{1}$ ๊ฐ’์ด ์ตœ์ €์ ๋ณด๋‹ค ํฐ ๊ฒฝ์šฐ, ์œ„์ชฝ ๊ทธ๋ž˜ํ”„์™€ ๊ฐ™์ด ํ‘œํ˜„๋œ๋‹ค. ์—ฌ๊ธฐ์„œ Jํ•จ์ˆ˜๋ฅผ ๋ฏธ๋ถ„(๊ธฐ์šธ๊ธฐ)ํ•˜๋ฉด, ์–‘์ˆ˜ ๊ฐ’์„ ๊ฐ€์ง€๊ฒŒ ๋œ๋‹ค. ์ด๋ฅผ gradient ๊ณต์‹์— ๋„ฃ์œผ๋ฉด ํ˜„์žฌ  $\theta_{1}$ ๊ฐ’๋ณด๋‹ค ์ž‘์€ ๊ฐ’์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค. (๊ฒฝ์‚ฌ๋ฅผ ๋”ฐ๋ผ ๋‚ด๋ ค๊ฐ)

 

๋‹ค์Œ์œผ๋กœ, ๋งŒ์•ฝ ํ˜„์žฌ  $\theta_{1}$ ๊ฐ’์ด ์ตœ์ €์ ๋ณด๋‹ค ์ž‘์€ ๊ฒฝ์šฐ, ์•„๋ž˜์ชฝ ๊ทธ๋ž˜ํ”„์™€ ๊ฐ™์ด ํ‘œํ˜„๋œ๋‹ค. Jํ•จ์ˆ˜๋ฅผ ๋ฏธ๋ถ„(๊ธฐ์šธ๊ธฐ)ํ•˜๋ฉด, ์Œ์ˆ˜ ๊ฐ’์„ ๊ฐ€์ง€๊ฒŒ ๋œ๋‹ค. ์ด๋ฅผ gradient ๊ณต์‹์— ๋„ฃ์œผ๋ฉด ํ˜„์žฌ  $\theta_{1}$ ๊ฐ’๋ณด๋‹ค ํฐ ๊ฐ’์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค. (๊ฒฝ์‚ฌ๋ฅผ ๋”ฐ๋ผ ๋‚ด๋ ค๊ฐ)

 

์ด์™€ ๊ฐ™์ด ๋ฏธ๋ถ„์„ ํ†ตํ•ด ์ตœ์ €์ ์„ ํ–ฅํ•ด ์ˆ˜๋ ด(์ด๋™)ํ•  ์ˆ˜ ์žˆ๋‹ค. 

 

 

 

 

๋‹ค์Œ์€ learning rate ์ธ $\alpha$์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์ž. ์•ž์—์„œ $\alpha$๋ฅผ step์œผ๋กœ ๋น„์œ ํ•˜์˜€๋‹ค. 

๋งŒ์•ฝ $\alpha$๊ฐ€ ๋„ˆ๋ฌด ์ž‘์œผ๋ฉด ์•„๋ž˜ ๊ทธ๋ฆผ์˜ ์œ„์ชฝ ๊ทธ๋ž˜ํ”„๊ณผ ๊ฐ™์ด ์ตœ์ €์ ์„ ์ฐพ๋Š”๋ฐ ๋งŽ์€ ๋‹จ๊ณ„์™€ ๋งŽ์€ ์‹œ๊ฐ„์ด ๊ฑธ๋ฆฐ๋‹ค. ๊ต์ˆ˜๋‹˜์€ ์ด๋ฅผ 'baby step downhill'์ด๋ผ ํ‘œํ˜„ํ–ˆ๋‹ค.

๋ฐ˜๋ฉด  $\alpha$๊ฐ€ ๋„ˆ๋ฌด ํฌ๋ฉด, ์ตœ์ €์ ๋ณด๋‹ค overํ•˜์—ฌ ์œ„์น˜๋ฅผ ์žก๋‹ค๊ฐ€ ์ž˜๋ชป ๊ผฌ์—ฌ ์ตœ์ €์ ์œผ๋กœ ์ˆ˜๋ ด(converge)ํ•˜์ง€ ๋ชปํ•˜๊ณ  ๊ฑฐ๊พธ๋กœ ๋ฐœ์‚ฐ(diverge)ํ•˜๋Š” ๊ฒฝ์šฐ๋„ ์žˆ๋‹ค. 

 

 

๋˜ํ•œ, ์šฐ๋ฆฌ๊ฐ€ ์ตœ์ €์ ์— ๊ฐ€๊นŒ์›Œ์งˆ์ˆ˜๋ก, gradient descent ์ˆ˜์‹๋„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ step์ด ์ž‘์•„์ง„๋‹ค.(๊ธฐ์šธ๊ธฐ๊ฐ€ ์ž‘์•„์ง€๊ธฐ ๋•Œ๋ฌธ์—)

๊ทธ๋ž˜์„œ $\alpha$ ๊ฐ’์„ ์ถ”๊ฐ€์ ์œผ๋กœ ์กฐ์ •ํ•  ํ•„์š”๊ฐ€ ์—†๋‹ค.

 


 

์ด์ œ ๊ฐ parameter์˜ gradient descent์‹์„ ํ•˜๋‚˜์”ฉ ์‚ดํŽด๋ณด์ž.

 

์šฐ๋ฆฌ๊ฐ€ ๋ฐฐ์šด gradient descent๋Š” ๋‘ ๊ฐœ์˜ parameter๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๊ณ , ์ด๋ฅผ ๊ฐ๊ฐ์˜ parameter๋กœ ํŽธ๋ฏธ๋ถ„ํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™์ด ๋‘๊ฐœ์˜ ์‹ ๋งŒ๋“ค์–ด์ง„๋‹ค. ํŽธ๋ฏธ๋ถ„์„ ํ•˜๋ฉด ์ œ๊ณฑ($^2$)์ด $\frac{1}{2}$๋กœ ๋‚ด๋ ค์˜ค๋ฏ€๋กœ $\frac{1}{m}$์œผ๋กœ  ๋‚˜๋ˆ ์ง„๋‹ค.

$\theta_{0}$๋Š” ์›๋ž˜ ์ƒ์ˆ˜(costant)์ด๋ฏ€๋กœ x(input data)๊ฐ€ ์‚ฌ๋ผ์ง€๊ณ , $\theta_{0}$์‹์œผ๋กœ ๋ฏธ๋ถ„ํ•œ ๊ฒƒ์€ x(input data)๊ฐ€ ๊ณฑํ•ด์ง„๋‹ค.

 

 

์ด์ œ cost function์— ๋Œ€ํ•œ gradient descent๋ฅผ ๋ฐฐ์› ๋‹ค. ์ด์™€ ๊ฐ™์ด ์ตœ์ €์ ์„ ์ฐพ์„ ๋•Œ๊นŒ์ง€ ๋ฐ˜๋ณต์ ์œผ๋กœ ์›€์ง์ด๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ 'batch gradient descent'๋ผ ํ•œ๋‹ค. 

 

grdient descent๋Š” local minimum์— ์˜ํ–ฅ์„ ๋ฐ›์ง€๋งŒ, ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์œ„์˜ ๊ทธ๋ฆผ์ฒ˜๋Ÿผ ์ƒ๊ธด cost function์„ ํ•˜๋‚˜์˜ global minimum์„ ๊ฐ–๋Š” ๊ทธ๋ž˜ํ”„ ํ˜•์‹(๋ณผ๋กํ•œ 2์ฐจ ํ•จ์ˆ˜)์œผ๋กœ ๋ฐ”๊พผ๋‹ค.  

 

๋”ฐ๋ผ์„œ learning rate $\alpha$๊ฐ€ ๋„ˆ๋ฌด ํฌ์ง€ ์•Š๋‹ค๊ณ  ๊ฐ€์ •ํ•  ๋•Œ, gradient descent๋Š” ํ•ญ์ƒ global minimum ๊ฐ’์œผ๋กœ ์ˆ˜๋ ด๋œ๋‹ค.

 

 

_______์ฐธ๊ณ  ์ž๋ฃŒ_______

์œ„ํ‚ค๋ฐฑ๊ณผ, ํ‰๊ท  ์ œ๊ณฑ ์˜ค์ฐจ

'๐Ÿค– AI > Machine Learning' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

04. Logistic Regression  (1) 2022.03.23
03. Linear Regression with Multiple Variable  (1) 2022.02.10
01. introduction  (0) 2022.01.20
Machine Learning ์ •๋ฆฌ  (0) 2022.01.20
์ถ”์ฒœ ์‹œ์Šคํ…œ์ด๋ž€  (0) 2022.01.05
Comments