ํ™•๋ฅ ์  ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(Stochastic Gradient Descent)

  • โ€˜๋ฌด์ž‘์œ„ํ•˜๊ฒŒโ€™ ํ˜น์€ โ€˜๋žœ๋คํ•˜๊ฒŒโ€™ ์˜ ๊ธฐ์ˆ ์  ํ‘œํ˜„์ด๋ฉฐ, ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋ฌด์ž‘์œ„๋กœ ํ•œ๊ฐœ์˜ ์ƒ˜ํ”Œ ๋ฐ์ดํ„ฐ ์…‹์„ ์ถ”์ถœํ•˜๊ณ  ๊ทธ ์ƒ˜ํ”Œ์— ๋Œ€ํ•ด์„œ๋งŒ ๊ธฐ์šธ๊ธฐ(์ตœ์  ํ•ด)๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ์ตœ์ ํ™” ๊ธฐ๋ฒ•(์†์‹คํ•จ์ˆ˜์˜ ์ตœ์†Œ ๊ฐ’)

png

ํ™•๋ฅ ์  ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ• ํ”„๋กœ์„ธ์Šค

png

์žฅ์ 

  1. ๋งค ๋ฐ˜๋ณต์—์„œ ๋‹ค๋ค„์•ผ ํ•  ๋ฐ์ดํ„ฐ ์ˆ˜๊ฐ€ ์ ์–ด ํ•™์Šต ์†๋„๊ฐ€ ๋น ๋ฅด๋‹ค.
  2. ํ•˜๋‚˜์˜ ์ƒ˜ํ”Œ ๋ฐ์ดํ„ฐ๋งŒ ์‚ฌ์šฉ ํ•˜๋ฏ€๋กœ ๋ฉ”๋ชจ๋ฆฌ ์†Œ๋ชจ๋Ÿ‰ ๋‚ฎ๋‹ค.

๋ฐฐ์น˜ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•( Batch Gradient Decent,BGD)

  • ์ „์ฒด ์ƒ˜ํ”Œ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ธฐ์šธ๊ธฐ(์ตœ์  ํ•ด)๋ฅผ ๊ณ„์‚ฐ

๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•๊ณผ ํ™•๋ฅ ์  ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์˜ ๋น„๊ต

png

  • ํ›ˆ๋ จ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋‘ ๋‹ค ์‚ฌ์šฉํ–ˆ๋‚˜์š”?
    • YES (1 ์—ํฌํฌ ์™„๋ฃŒ)
    • ํ›ˆ๋ จ ์„ธํŠธ์— ์ƒ˜ํ”Œ์„ ๋ชจ๋‘ ์ฑ„์šฐ๊ณ  ๋‹ค์‹œ ์‹œ์ž‘

์†์‹คํ•จ์ˆ˜(Loss Function)

  • ์‹ค์ œ๊ฐ’๊ณผ ์˜ˆ์ธก๊ฐ’์˜ ์ฐจ์ด (loss, cost) ๋ฅผ ์ˆ˜์น˜ํ™”ํ•ด์ฃผ๋Š” ํ•จ์ˆ˜
  • ์˜ค์ฐจ๊ฐ€ ํด์ˆ˜๋ก ์†์‹คํ•จ์ˆ˜์˜ ๊ฐ’์ด ํฌ๊ณ , ์˜ค์ฐจ๊ฐ€ ์ž‘์„์ˆ˜๋ก ์†์‹คํ•จ์ˆ˜์˜ ๊ฐ’์ด ์ž‘์•„์ง„๋‹ค.

์„ ํ˜• ํšŒ๊ท€

  • ์ •๋‹ต๊ณผ ์˜ˆ์ƒ๊ฐ’์˜ ์˜ค์ฐจ ์ œ๊ณฑ์ด ์ตœ์†Œ๊ฐ€ ๋˜๋Š” ๊ฐ€์ค‘์น˜์™€ ์ ˆํŽธ์„ ์ฐพ๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ(ํ‰๊ท ์ œ๊ณฑ์˜ค์ฐจ์‚ฌ์šฉ)

๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€

  • ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ๋ถ„๋ฅ˜๋œ ์ƒ˜ํ”Œ ๋ฐ์ดํ„ฐ ๋น„์œจ ์ž์ฒด๋ฅผ ๋†’์ด๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ
  • ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ๋ถ„๋ฅ˜๋œ ์ƒ˜ํ”Œ์˜ ๋น„์œจ์€ ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•œ ํ•จ์ˆ˜๊ฐ€ ์•„๋‹ˆ๊ธฐ ๋•Œ๋ฌธ์— ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์˜ ์†์‹ค ํ•จ์ˆ˜๋กœ ์‚ฌ์šฉ ๋ถˆ๊ฐ€๋Šฅ
  • ๋กœ์ง€์Šคํ‹ฑ ์†์‹ค ํ•จ์ˆ˜ ์‚ฌ์šฉ

ex) ๋„๋ฏธ ๋˜๋Š” ๋น™์–ด ์ผ ํ™•๋ฅ  0 ๋˜๋Š” 1 ์˜ˆ์ธก -> ํ™•๋ฅ ์€ ํ™œ์„ฑํ™”ํ•จ์ˆ˜(์‹œ๊ทธ๋ชจ์ด๋“œํ•จ์ˆ˜)๋ฅผ ํ†ตํ•ด 0~1์‚ฌ์ด์˜ ๊ฐ’์œผ๋กœ ์ถœ๋ ฅ

png

๋กœ์ง€์Šคํ‹ฑ ์†์‹ค ํ•จ์ˆ˜

  • ๋‹ค์ค‘๋ถ„๋ฅ˜๋ฅผ ์œ„ํ•œ ์†์‹คํ•จ์ˆ˜์ธ ์—”ํŠธ๋กœํ”ผ(cross entropy)์†์‹ค ํ•จ์ˆ˜๋ฅผ ์ด์ง„ ๋ถ„๋ฅ˜ ๋ฒ„์ „์œผ๋กœ ๋งŒ๋“  ํ•จ์ˆ˜ (a = ํ™œ์„ฑํ™”ํ•จ์ˆ˜ ์ถœ๋ ฅํ•œ๊ฐ’ , y = ํƒ€๊นƒ)

๋กœ์ง€์Šคํ‹ฑ ์†์‹ค ํ•จ์ˆ˜ ํ•ด์„

png

  • y(์‹ค์ œ๊ฐ’) = 1 (yes) ์ผ ๋•Œ or 0 (no) ์ผ ๋•Œ๋กœ ๋‚˜๋ˆˆ๋‹ค.

png

png

  1. y ๊ฐ€ 1์ผ ๊ฒฝ์šฐ, ์˜ˆ์ธกํ•œ ๊ฐ’์ด 1์ด๋ฉด cost = 0 ์œผ๋กœ ์ตœ์ € -> 0์— ๊ฐ€๊นŒ์šธ ์ˆ˜๋ก cost ์˜ฌ๋ผ๊ฐ
  2. y ๊ฐ€ 0์ผ ๊ฒฝ์šฐ, ์˜ˆ์ธกํ•œ ๊ฐ’์ด 0์ด๋ฉด cost = 0 ์œผ๋กœ ์ตœ์ € -> 1์— ๊ฐ€๊นŒ์šธ ์ˆ˜๋ก cost ์˜ฌ๋ผ๊ฐ

๋กœ์ง€์Šคํ‹ฑ ์†์‹ค ํ•จ์ˆ˜ ๋ฏธ๋ถ„

png โ€”

์—ํฌํฌ์™€ ๊ณผ๋Œ€/๊ณผ์†Œ์ ํ•ฉ

  • ํ›ˆ๋ จ๋ฐ์ดํ„ฐ์…‹์— ํฌํ•จ๋œ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋“ค์ด ํ•œ๋ฒˆ์”ฉ ๋ชจ๋ธ์„ ํ†ต๊ณผํ•œ ํšŸ์ˆ˜๋กœ, ๋ชจ๋“  ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์„ ํ•™์Šตํ•˜๋Š” ํšŸ์ˆ˜๋ฅผ ์˜๋ฏธ
  • ํ™•๋ฅ ์  ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์„ ์‚ฌ์šฉํ•œ ๋ชจ๋ธ์€ ์—ํฌํฌ ํšŸ์ˆ˜์— ๋”ฐ๋ผ ๊ณผ์†Œ์ ํ•ฉ์ด๋‚˜ ๊ณผ๋Œ€์ ํ•ฉ์ด ๋  ์ˆ˜ ์žˆ๋‹ค.