๋‹จ์ธต ์‹ ๊ฒฝ๋ง Single-Layer Perceptron


  • input layer์™€ outoput layer ๋กœ๋งŒ ๊ตฌ์„ฑ
  • ์„ ํ˜•์œผ๋กœ ์ด๋ฃจ์–ด์ง

๋‹จ์ธต ์‹ ๊ฒฝ๋ง์˜ ํ•œ๊ณ„


  • ์„ ํ˜• ๋ถ„๋ฆฌ ๋ถˆ๊ฐ€๋Šฅ(linearly inseparable) ๋ฌธ์ œ
  • ์ง์„ ์œผ๋กœ ์˜์—ญ์„ ๋ถ„๋ฆฌํ•  ์ˆ˜ ์—†๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ์Œ ์„ ํ˜• ๋ถ„๋ฆฌ ๋ถˆ๊ฐ€๋Šฅ
  • ์ด๋Ÿฌํ•œ ๊ฒฝ์šฐ ์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด ๋ณต์žกํ•œ ๊ณก์„ ์œผ๋กœ๋งŒ ์˜์—ญ ๋ถ„๋ฆฌ ๊ฐ€๋Šฅํ•จ
  • ์„ ํ˜•๋ถ„๋ฅ˜๊ธฐ์—์„œ ๋น„์„ ํ˜• ๋ถ„๋ฅ˜๊ธฐ๋กœ ๋น„๊ฟ”์•ผํ•˜๋Š” ํ•„์š”์„ฑ ์žˆ์Œ
  • ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋‚˜์˜จ ๊ฐœ๋…์ด hidden layer

์‹ฌ์ธต์‹ ๊ฒฝ๋ง ํŠน์ง•


  • hidden layer๊ฐ€ 2๊ฐœ ์ด์ƒ ๋ถ€ํ„ฐ๋Š” ์‹ฌ์ธต์‹ ๊ฒฝ๋ง
  • ๋น„์„ ํ˜•์˜ ํ™œ์„ฑํ•จ์ˆ˜
  • hidden layer๋„ ๋ฌด์ž‘์ • ์Œ“๊ธฐ๋งŒ ํ•œ๋‹ค๊ณ  ํ•ด์„œ ํผ์…‰ํŠธ๋ก ์„ ์„ ํ˜•๋ถ„๋ฅ˜๊ธฐ์—์„œ ๋น„์„ ํ˜•๋ถ„๋ฅ˜๊ธฐ๋กœ ๋ฐ”๊ฟ€ ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์€ ์•„๋‹˜
  • 2๊ฐœ์˜ Layer๋ฅผ ์Œ“์•„๋ดค์ง€๋งŒ X์— ๊ณฑํ•ด์ง€๋Š” ํ•ญ๋“ค์€ W๋กœ ์น˜ํ™˜๊ฐ€๋Šฅํ•˜๊ณ , ์ž…๋ ฅ๊ณผ ๋ฌด๊ด€ํ•œ ์ƒ์ˆ˜๋“ค์€ ์ „์ฒด๋ฅผ B๋กœ ์น˜ํ™˜ ๊ฐ€๋Šฅํ•˜๊ธฐ ๋•Œ๋ฌธ์— WX+B๋ผ๋Š” Single layer perceptron๊ณผ ๋™์ผํ•œ ๊ฒฐ๊ณผ
  • Deep ํ•˜๊ฒŒ ์Œ“๋Š” ์˜๋ฏธ๊ฐ€ ์—†์–ด์ง

ํ™œ์„ฑํ™” ํ•จ์ˆ˜activation function


neuron

ํ™œ์„ฑํ™” ํ•จ์ˆ˜์˜ ์ข…๋ฅ˜


ํ•œ๊ณ„


  • non-linear ๋ฌธ์ œ๋“ค์€ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์—ˆ์ง€๋งŒ layer๊ฐ€ ๊นŠ์–ด์งˆ์ˆ˜๋ก ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ฐœ์ˆ˜๊ฐ€ ๊ธ‰๋“ฑํ•˜๊ฒŒ ๋˜๊ณ  ์ด ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์„ ์ ์ ˆํ•˜๊ฒŒ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์ด ๋งค์šฐ ์–ด๋ ค์›€
  • ์ด๋Š” ์—ญ์ „ํŒŒ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ๋“ฑ์žฅํ•˜๊ฒŒ ๋˜๋ฉด์„œ ํ•ด๊ฒฐ๋˜์—ˆ๊ณ  ๊ฒฐ๋ก ์ ์œผ๋กœ ์—ฌ๋Ÿฌ layer๋ฅผ ์Œ“์€ ์‹ ๊ฒฝ๋ง ๋ชจ๋ธ ํ•™์Šต์ด ๊ฐ€๋Šฅ

์—ญ์ „ํŒŒ Backpropagation

  • ์—ญ์ „ํŒŒ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ถœ๋ ฅ๊ฐ’์— ๋Œ€ํ•œ ์ž…๋ ฅ๊ฐ’์˜ ๊ธฐ์šธ๊ธฐ(๋ฏธ๋ถ„๊ฐ’)์„ ์ถœ๋ ฅ์ธต layer์—์„œ๋ถ€ํ„ฐ ๊ณ„์‚ฐํ•˜์—ฌ ๊ฑฐ๊พธ๋กœ ์ „ํŒŒ์‹œํ‚ค๋Š” ๊ฒƒ
  • ์ถœ๋ ฅ์ธต ๋ฐ”๋กœ ์ „ layer์—์„œ๋ถ€ํ„ฐ ๊ธฐ์šธ๊ธฐ(๋ฏธ๋ถ„๊ฐ’)์„ ๊ณ„์‚ฐํ•˜๊ณ  ์ด๋ฅผ ์ ์  ๊ฑฐ๊พธ๋กœ ์ „ํŒŒ์‹œํ‚ค๋ฉด์„œ ์ „ layer๋“ค์—์„œ์˜ ๊ธฐ์šธ๊ธฐ์™€ ์„œ๋กœ ๊ณฑํ•˜๋Š” ํ˜•์‹์œผ๋กœ ๋‚˜์•„๊ฐ€๋ฉด ์ตœ์ข…์ ์œผ๋กœ ์ถœ๋ ฅ์ธต์˜ output์— ๋Œ€ํ•œ ์ž…๋ ฅ์ธต์—์„œ์˜ input์˜ ๊ธฐ์šธ๊ธฐ(๋ฏธ๋ถ„๊ฐ’)์„ ๊ตฌํ•  ์ˆ˜๊ฐ€ ์žˆ์Œ

๋ฐฐ์น˜ Batch

  • Iteration 1ํšŒ๋‹น ์‚ฌ์šฉ๋˜๋Š” training data set ์˜ ๋ฌถ์Œ

๋ฏธ๋‹ˆ๋ฐฐ์น˜sub>Mini-Batch

  • training data set ์ชผ๊ฐœ์–ด ๋†“์€ ๋ฌถ์Œ

Batch gradient descent(BGD)

  • ์ „์ฒด ๋ฐ์ดํ„ฐ ์…‹์— ๋Œ€ํ•œ ์—๋Ÿฌ๋ฅผ ๊ตฌํ•œ ๋’ค ๊ธฐ์šธ๊ธฐ๋ฅผ ํ•œ๋ฒˆ๋งŒ ๊ณ„์‚ฐํ•˜์—ฌ ๋ชจ๋ธ์˜ parameter ๋ฅผ ์—…๋ฐ์ดํŠธ ํ•˜๋Š” ๋ฐฉ๋ฒ•

ํ™•๋ฅ ์  ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ• Stochastic gradient descent(SGD)

  • ์ถ”์ถœ๋œ ๋ฐ์ดํ„ฐ ํ•œ ๊ฐœ์— ๋Œ€ํ•ด์„œ error gradient ๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ , Gradient descent ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•
  • ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋žœ๋คํ•˜๊ฒŒ ์ถ”์ถœํ•œ ์ผ๋ถ€ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉ
  • ๋”ฐ๋ผ์„œ ํ•™์Šต ์ค‘๊ฐ„ ๊ณผ์ •์—์„œ ๊ฒฐ๊ณผ์˜ ์ง„ํญ์ด ํฌ๊ณ  ๋ถˆ์•ˆ์ •ํ•˜๋ฉฐ, ์†๋„๊ฐ€ ๋งค์šฐ ๋น ๋ฅด๋‹ค.