ํ๋ฅ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(Stochastic Gradient Descent)
- โ๋ฌด์์ํ๊ฒโ ํน์ โ๋๋คํ๊ฒโ ์ ๊ธฐ์ ์ ํํ์ด๋ฉฐ, ํ์ต ๋ฐ์ดํฐ์ ์์ ๋ฌด์์๋ก ํ๊ฐ์ ์ํ ๋ฐ์ดํฐ ์ ์ ์ถ์ถํ๊ณ ๊ทธ ์ํ์ ๋ํด์๋ง ๊ธฐ์ธ๊ธฐ(์ต์ ํด)๋ฅผ ๊ณ์ฐํ๋ ์ต์ ํ ๊ธฐ๋ฒ(์์คํจ์์ ์ต์ ๊ฐ)
ํ๋ฅ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ ํ๋ก์ธ์ค
์ฅ์
- ๋งค ๋ฐ๋ณต์์ ๋ค๋ค์ผ ํ ๋ฐ์ดํฐ ์๊ฐ ์ ์ด ํ์ต ์๋๊ฐ ๋น ๋ฅด๋ค.
- ํ๋์ ์ํ ๋ฐ์ดํฐ๋ง ์ฌ์ฉ ํ๋ฏ๋ก ๋ฉ๋ชจ๋ฆฌ ์๋ชจ๋ ๋ฎ๋ค.
๋ฐฐ์น ๊ฒฝ์ฌ ํ๊ฐ๋ฒ( Batch Gradient Decent,BGD)
- ์ ์ฒด ์ํ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๊ธฐ์ธ๊ธฐ(์ต์ ํด)๋ฅผ ๊ณ์ฐ
๊ฒฝ์ฌํ๊ฐ๋ฒ๊ณผ ํ๋ฅ ์ ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ๋น๊ต
- ํ๋ จ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ๋ค ์ฌ์ฉํ๋์?
- YES (1 ์ํฌํฌ ์๋ฃ)
- ํ๋ จ ์ธํธ์ ์ํ์ ๋ชจ๋ ์ฑ์ฐ๊ณ ๋ค์ ์์
์์คํจ์(Loss Function)
- ์ค์ ๊ฐ๊ณผ ์์ธก๊ฐ์ ์ฐจ์ด (loss, cost) ๋ฅผ ์์นํํด์ฃผ๋ ํจ์
- ์ค์ฐจ๊ฐ ํด์๋ก ์์คํจ์์ ๊ฐ์ด ํฌ๊ณ , ์ค์ฐจ๊ฐ ์์์๋ก ์์คํจ์์ ๊ฐ์ด ์์์ง๋ค.
์ ํ ํ๊ท
- ์ ๋ต๊ณผ ์์๊ฐ์ ์ค์ฐจ ์ ๊ณฑ์ด ์ต์๊ฐ ๋๋ ๊ฐ์ค์น์ ์ ํธ์ ์ฐพ๋ ๊ฒ์ด ๋ชฉํ(ํ๊ท ์ ๊ณฑ์ค์ฐจ์ฌ์ฉ)
๋ก์ง์คํฑ ํ๊ท
- ์ฌ๋ฐ๋ฅด๊ฒ ๋ถ๋ฅ๋ ์ํ ๋ฐ์ดํฐ ๋น์จ ์์ฒด๋ฅผ ๋์ด๋ ๊ฒ์ด ๋ชฉํ
- ์ฌ๋ฐ๋ฅด๊ฒ ๋ถ๋ฅ๋ ์ํ์ ๋น์จ์ ๋ฏธ๋ถ ๊ฐ๋ฅํ ํจ์๊ฐ ์๋๊ธฐ ๋๋ฌธ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์์ค ํจ์๋ก ์ฌ์ฉ ๋ถ๊ฐ๋ฅ
- ๋ก์ง์คํฑ ์์ค ํจ์ ์ฌ์ฉ
ex) ๋๋ฏธ ๋๋ ๋น์ด ์ผ ํ๋ฅ 0 ๋๋ 1 ์์ธก -> ํ๋ฅ ์ ํ์ฑํํจ์(์๊ทธ๋ชจ์ด๋ํจ์)๋ฅผ ํตํด 0~1์ฌ์ด์ ๊ฐ์ผ๋ก ์ถ๋ ฅ
๋ก์ง์คํฑ ์์ค ํจ์
- ๋ค์ค๋ถ๋ฅ๋ฅผ ์ํ ์์คํจ์์ธ ์ํธ๋กํผ(cross entropy)์์ค ํจ์๋ฅผ ์ด์ง ๋ถ๋ฅ ๋ฒ์ ์ผ๋ก ๋ง๋ ํจ์ (a = ํ์ฑํํจ์ ์ถ๋ ฅํ๊ฐ , y = ํ๊น)
๋ก์ง์คํฑ ์์ค ํจ์ ํด์
- y(์ค์ ๊ฐ) = 1 (yes) ์ผ ๋ or 0 (no) ์ผ ๋๋ก ๋๋๋ค.
- y ๊ฐ 1์ผ ๊ฒฝ์ฐ, ์์ธกํ ๊ฐ์ด 1์ด๋ฉด cost = 0 ์ผ๋ก ์ต์ -> 0์ ๊ฐ๊น์ธ ์๋ก cost ์ฌ๋ผ๊ฐ
- y ๊ฐ 0์ผ ๊ฒฝ์ฐ, ์์ธกํ ๊ฐ์ด 0์ด๋ฉด cost = 0 ์ผ๋ก ์ต์ -> 1์ ๊ฐ๊น์ธ ์๋ก cost ์ฌ๋ผ๊ฐ
๋ก์ง์คํฑ ์์ค ํจ์ ๋ฏธ๋ถ
โ
์ํฌํฌ์ ๊ณผ๋/๊ณผ์์ ํฉ
- ํ๋ จ๋ฐ์ดํฐ์ ์ ํฌํจ๋ ๋ชจ๋ ๋ฐ์ดํฐ๋ค์ด ํ๋ฒ์ฉ ๋ชจ๋ธ์ ํต๊ณผํ ํ์๋ก, ๋ชจ๋ ํ์ต ๋ฐ์ดํฐ์ ์ ํ์ตํ๋ ํ์๋ฅผ ์๋ฏธ
- ํ๋ฅ ์ ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ์ฌ์ฉํ ๋ชจ๋ธ์ ์ํฌํฌ ํ์์ ๋ฐ๋ผ ๊ณผ์์ ํฉ์ด๋ ๊ณผ๋์ ํฉ์ด ๋ ์ ์๋ค.