๊ต์ก ์ธ์
์ธ์ฌ์ดํธ๋ ์ด 7ํ์ ๊ต์ก์ธ์
(OT ํฌํจ)์ ํตํด ์ ์
๊ธฐ์์ ์ํํธ๋๋ฉ์ ๋๋ชจํ๊ณ ,
ํํ์๋ค์ ์ฒด๊ณ์ ์ธ ๋ฐ์ดํฐ ๋ถ์ ๋ฐ ๋ชจ๋ธ๋ง์ ์ํ ๊ธฐ์ด๋ฅผ ๋ค์ง๊ณ ์์ต๋๋ค.
๊ต์ก ์ธ์ [ํ์ด์ฌ]
ํ๊ธฐ ์ด์๋ Github์ ์ฌ์ฉ๋ฒ๊ณผ Python์ ํ์ตํฉ๋๋ค.
Pandas๋ฅผ ์์ฃผ๋ก Python์ ๊ธฐ์ด๋ถํฐ ์ฌํ๊น์ง, ๊ทธ๋ฆฌ๊ณ EDA์ ํ์ํ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๋ฐ ์๊ฐํ๋ฅผ 4๋ฒ์ ์ธ์
์ ๊ฑธ์ณ ํ์ตํฉ๋๋ค.
Session 0 (OT). Jupyter Notebook, ํ์ด์ฌ ๊ธฐ์ด
๋ณธ ์ธ์
์ ๋ณธ๊ฒฉ์ ์ธ ๊ต์ก ์ธ์
์งํ์ ์์ ์ฌ์ ํ์ต๊ณผ์ ์ ํด๋นํฉ๋๋ค.
Jupyter Notebook์ ์ค์นํ๊ณ ์ด๊ธฐ ์ค์ ์ ์งํํ์์ต๋๋ค.
๋ํ, ๊ธฐ๋ณธ์ ์ธ ํ์ด์ฌ ๋ฌธ๋ฒ์ ํ์ต ๋ฐ ๋ณต์ตํ๊ณ , Pandas ๊ธฐ์ด ์ดํด๋ฅผ ์ํ ํ์ต์ ์งํํ์ต๋๋ค.
Session 1. Github, Pandas
๋ณธ ์ธ์
์์๋ ๊ณผ์ ์ ์ถ ๋ฐ ํฌํธํด๋ฆฌ์ค ๊ด๋ฆฌ๋ฅผ ์ํ Github ํ์ฉ ๋ฐฉ๋ฒ์ ๋ํด ํ์ตํ์ผ๋ฉฐ, Pandas ๋ฌธ๋ฒ์ ์ค์ ๋ฐ์ดํฐ์ ์ ์ฉํด๋ณด๋ฉฐ ๋ณธ๊ฒฉ์ ์ผ๋ก ํ์ตํ์ต๋๋ค.
Session 2. EDA : ์ฝ๊ธฐ, ์๊ฐํ
๋ณธ ์ธ์
์์๋ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ๊ณ ์ดํดํ๊ธฐ ์ํด EDA๊ฐ ๋ฌด์์ธ์ง ์์๋ณด์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋ฐ์ดํฐ๋ฅผ ์ฝ๋ ๋ฐฉ์๊ณผ ์๊ฐํ์ ๊ธฐ์ด์ ์ธ ๋ด์ฉ์ ํ์ตํ์ต๋๋ค.
Session 3. EDA : EDA, ์ ์ฒ๋ฆฌ
๋ณธ ์ธ์
์์๋ EDA์ ๋์๊ณผ ์ข
๋ฅ๋ฅผ ๋๋๊ณ ๊ทธ์ ๋ฐ๋ฅธ EDA ์ ํ์ ํ์ตํฉ๋๋ค. ๋ณธ๊ฒฉ์ ์ธ ๊ทธ๋ฆฌ๊ณ ๋ฐ์ดํฐ ๋ถ์ ์ ํ์์ ์ธ ๊ณผ์ ์ธ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๊ณผ์ ์ ๋ํด ์์๋ณด์์ต๋๋ค.
๊ต์ก ์ธ์ [ํต๊ณ]
ํ์ด์ฌ ๊ต์ก ์ธ์
์ดํ, ์ด 3ํ์ ํต๊ณ ์ธ์
(ํต๊ณ, ํ๊ท, ๋ถ๋ฅ)์ ํตํด ๋ฐ์ดํฐ ๋ถ์์ ๊ธฐ๋ฐ์ด
๋๋ ๊ธฐ์ด์ ์ธ ํต๊ณ ๊ฐ๋
๊ณผ ๋จธ์ ๋ฌ๋(ํ๊ท, ๋ถ๋ฅ)์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ํ์ตํ์ต๋๋ค.
Session 4. ํต๊ณ
๋ณธ ์ธ์
์์๋ ๊ธฐ์ ํต๊ณ์ ๋ชจ์ง ์ถ๋ก ํต๊ณ, ๋ค์ํ ๋ถํฌ๋ค๊ณผ ๊ฐ์ค๊ฒ์ ์ ์ ์ฐจ ๋ฐ ํด์ ๋ฑ ํต๊ณ์ ๊ด๋ จํ ๋ค์ํ ์ด๋ก ์ ๊ธฐ๋ฐ์ ๋ํด ํ์ตํ์ต๋๋ค.
Session 5. ํ๊ท ๊ธฐ์ด
๋ณธ ์ธ์
์์๋ ๋จ์ ์ ํ ํ๊ท, ๋ค์ค ์ ํ ํ๊ท, ํ๊ท ๋ชจํ์ ๊ฐ์ ์ง๋จ ๋ฑ ํ๊ท ๋ถ์๊ณผ ๊ด๋ จํ ์ด๋ก ์ ๊ธฐ๋ฐ์ ๋ํด ํ์ตํ๊ณ , ์ค์ตํด๋ณด๋ ์๊ฐ์ ๊ฐ์ก์ต๋๋ค.
Session 6. ๋ถ๋ฅ ๊ธฐ์ด
๋ถ๋ฅ์ ๊ฐ๋
, ์ข
๋ฅ, ํ๊ฐ ์งํ์ ๋ํด ์ดํดํ๊ณ ํ์ดํผํ๋ผ๋ฏธํฐ ์ต์ ํ๋ฅผ ํ์ตํ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ฝ๋๋ฅผ ํตํด ๋ถ๋ฅ ๋ชจ๋ธ์ ๊ตฌํํ๊ณ ํ๊ฐํด ๋ณด์์ต๋๋ค.
์ด๋ค ํ์ดํผํ๋ผ๋ฏธํฐ(Hyperparameters)๋ฅผ ์ค์ ํ๋๋์ ๋ฐ๋ผ ๋ชจ๋ธ ์ฑ๋ฅ(Score)๊ฐ ๋ฌ๋ผ์ง๋ค.
์ฌํ ์ธ์
๊ต์ก ์ธ์
์ ๋ง์น ํ์๋ ์ฌํ ์ธ์
์ ์งํํ์ต๋๋ค.
๋ฐ์ดํฐ ๋ถ์๊ณผ ๋จธ์ ๋ฌ๋ ์ฌํ ์ฃผ์ ์ค ๊ด์ฌ ๋ถ์ผ์ ๋ฐ๋ผ ํ์ ๊ตฌ์ฑํ์๊ณ , ๊ฐ ํ์ ํ์ต ์๋ฃ์ ์ค์ต ๊ณผ์ ๋ฅผ ์ ์ํ์ฌ ์ฃผ 2ํ ์ ๊ท ์ธ์
์ ์งํํ์ต๋๋ค.
Session 1~2. ์ง๋ํ์ต ์ฌํ
๋ณธ ์ธ์
์์ , ๋ณธ๊ฒฉ์ ์ธ ์ง๋ํ์ต ๋ด์ฉ์ ์ด์ํ๊ธฐ ์์ ์์คํจ์์ ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ๊ฐ๋
์ ๋ํด ์์๋ดค์ต๋๋ค.
๊ท์ ์ ํ๋ชจ๋ธ์ ๊ฐ๋
์ ๋ํด ๋น์ฐ๊ณ ๋ฆฟ์ง ํ๊ณ(L2 ๊ท์ ), ๋ผ์ ํ๊ท(L1 ๊ท์ )์ ๋ํ์ฌ ์์๋ณด์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋ ํ๊ท์ ๋จ์ ์ ๋ณด์ํ ์๋์คํฑ๋ท ํ๊ท์ ๋ํ์ฌ ๊ณต๋ถํ์ต๋๋ค.
์ฐจ์์ถ์์ ๋ํ์ฌ ๊ณต๋ถํ์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก PCA (์ฃผ์ฑ๋ถ ๋ถ์, Principal Component Analysis), LCD(์ ํ ํ๋ณ ๋ถ์), NMF (๋น์์ ํ๋ ฌ ๋ถํด), SVD (ํน์ด๊ฐ ๋ถํด)์ ๊ฐ๋
๊ณผ ํ์ํ ์ด์ ์ ๋ํด ์์๋ณด์์ต๋๋ค.
์ฐจ์์ถ์
SVD
NMF
๋น์ ํ ํ๊ท๋ชจ๋ธ(๋คํญ ํ๊ท, ๋ก๊ทธ ํ๊ท, ์ง์ ํ๊ท ์คํ๋ผ์ธ ํ๊ท)์ ๋ํด ์์๋ณด๊ณ ๊ฐ ํ๊ท์ ์ฌ์ฉ ๋ฐฉ๋ฒ ๋ฐ ์ ํฉํ ์ํฉ์ ๋ํ์ฌ ๋ฐฐ์ ์ต๋๋ค. ๋ค์ค ๋ถ๋ฅ ๋ชจ๋ธ๊ณผ ์์๋ธ ๊ธฐ๋ฒ์ ๋ํด์๋ ํ์ตํ์์ต๋๋ค.
์์๋ธ Ensemble ?
โข
์ฌ๋ฌ ๊ฐ์ ๊ฐ๋ณ ๋ถ๋ฅ๋ชจ๋ธ๋ค์ โ๊ฒฐํฉโํด ํ๋์ ๋ถ๋ฅ๋ชจ๋ธ๋ณด๋ค ๋ ์ข์ ์ฑ๋ฅ์ ๋ด๋ ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฒ
โข
์ฆ, ์ฌ๋ฌ ์ฝ ๋ถ๋ฅ๊ธฐ(Weak Classifier)๋ฅผ ๋ณ๋ ฌ ๋๋ ์ง๋ ฌ๋ก ๊ฒฐํฉํ์ฌ ๊ฐ ๋ถ๋ฅ๊ธฐ(Strong Classifier)๋ก ๋ง๋๋ ๊ฒ!
โข
์ฌ๋ฌ ๊ฐ์ ๋ชจ๋ธ์ ํ์ต์ํค๊ณ ๊ฐ ๋ชจ๋ธ์ ์์ธก ๊ฒฐ๊ณผ๋ฅผ ์ข
ํฉํด์ ์ต์ข
์์ธก
ํ์ดํผ ํ๋ผ๋ฏธํฐ์ ํ์์ฑ์ ์์๋ณด๊ณ ํ์ดํผ ํ๋ผ๋ฏธํฐ ์ต์ ํ ๊ณผ์ ์ ๊ณต๋ถํ์์ต๋๋ค.
์ด๋ค ํ์ดํผํ๋ผ๋ฏธํฐ(Hyperparameters)๋ฅผ ์ค์ ํ๋๋์ ๋ฐ๋ผ ๋ชจ๋ธ ์ฑ๋ฅ(Score)๊ฐ ๋ฌ๋ผ์ง๋ค.
Grid Search
์ ํด์ง ๋ฒ์์์ Hyperparameter๋ฅผ ๋ชจ๋ ์ํํ๋ฉฐ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ด๋ ๊ฐ์ ์ฐพ๋ ๊ธฐ๋ฒ
Random Search
์ ํด์ง ๋ฒ์์์ Hyperparameter๋ฅผ ๋ฌด์์๋ก ํ์ํด ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ด๋ ๊ฐ์ ์ฐพ๋ ๊ธฐ๋ฒ
Bayesian Optimization
์ฌ์ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ์ต์ Hyperparameter ๊ฐ์ ํ๋ฅ ์ ์ผ๋ก ์ถ์ ํ๋ฉฐ ํ์ํ๋ ๊ธฐ๋ฒ
Session 3. ์ถ์ฒ์์คํ
์ถ์ฒ์์คํ
์ ๋ฑ์ฅ ๋ฐฐ๊ฒฝ๊ณผ ๊ด๋ จ ๊ธฐ์ ์ ๋ฐ์ ์ ์ดํผ๊ณ , ๋ด์ฉ ๊ธฐ๋ฐ ํํฐ๋ง๊ณผ ํ์
ํํฐ๋ง์ ์๋ฆฌ๋ฅผ ์ดํดํฉ๋๋ค. ๋ด์ฉ ๊ธฐ๋ฐ ํํฐ๋ง๊ณผ ๊ด๋ จํ์ฌ ์ํ(์์ดํ
)์ ๋ํ ๋ฒกํฐ ์ฐ์ฐ์ ์ค์ตํ์ต๋๋ค. ํ์
ํํฐ๋ง๊ณผ ๊ด๋ จํ์ฌ, ๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ฐ๊ณผ ๋ชจ๋ธ ๊ธฐ๋ฐ ๋ฐฉ์์ ํ์ตํ๊ณ , ๊ฐ ๋ฐฉ์์ ๋ํ ์ ์ฌ๋, ํ๋ ฌ ์ฐ์ฐ์ ์ค์ตํ์ต๋๋ค.
๋ชจ๋ธ ๊ธฐ๋ฐ ํํฐ๋ง๊ณผ ๊ด๋ จํ์ฌ, ํด๋ฌ์คํฐ๋ง, ํ ํฝ ๋ชจ๋ธ, ํ๋ ฌ ๋ถํด ๋ชจ๋ธ์ ์ดํด๋ณด๊ณ ์ถ์ฒ ๋ชจ๋ธ์ ํ๊ฐ ์งํ๋ฅผ ํ์ตํ์ต๋๋ค.
์ฐ๋๋ณ ์ถ์ฒ์์คํ
์ ์ฌ์ฉ๋ ๋ํ์ ์ธ ๊ธฐ์
์ถ์ฒ์์คํ
์ ๋ถ๋ฅ
๋ด์ฉ(์ฝํ ์ธ ) ๊ธฐ๋ฐ ํํฐ๋ง
โข
์ฑ
์ ์ ๋ชฉ์ด๋ ์ ์, ์ฅ๋ฅด ๋ฑ๊ณผ ๊ฐ์ด ์์ดํ
์ ๋ด์ฉ์ ๋ํ๋ด๋ ์ ๋ณด๋ฅผ ์ฌ์ฉ
โข
์ฌ์ฉ์๊ฐ ์ ํธํ๋ ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ด์ฉ์ด ๋น์ทํ ์์ดํ
์ ๊ณ์ฐํจ์ผ๋ก์จ ์ถ์ฒ์ ์ํํ๋ ์๊ณ ๋ฆฌ์ฆ
ํ์ (ํ์กฐ) ํํฐ๋ง
โข
์๋น์ค ๋ด์ ์๋ ๋ค๋ฅธ ์ฌ์ฉ์์ ๊ณผ๊ฑฐ ํ๋ ๋ฑ์ ํตํด ์ป์ด์ง ๊ธฐํธ ๊ฒฝํฅ์ ํ์ฉํ๋ ์ถ์ฒ ์๊ณ ๋ฆฌ์ฆ.
ํน์ด๊ฐ ๋ถํด
Session 4. ๋ฅ๋ฌ๋
์ธ๊ณต์ง๋ฅ(AI), ๋จธ์ ๋ฌ๋, ๋ฅ๋ฌ๋์ ๊ฐ๋
์ ์ดํผ๊ณ ๋น์ ํ ๋ฐ์ดํฐ์ ๋ํด ์๊ฐํ์ต ํ๋ ๋ฅ๋ฌ๋์ ๋ํด ๊ณต๋ถํ์ต๋๋ค. ์ธ๊ณต์ ๊ฒฝ๋ง(Artificial Neural Network, ANN) ๋ชจ๋ธ ๋ด ์์ฌ๊ฒฐ์ ์๋ฆฌ๋ฅผ ์ดํผ๊ณ ํผ์
ํธ๋ก ์ ๊ตฌ์กฐ์ ๋ค์ธตํ์ ์ ๊ฒฝ๋ง์ผ๋ก์ ์ฐ๊ฒฐ, ๊ตฌ์ฒด์ ์ธ ์ ๊ฒฝ๋ง ํ์ต ๋ชจ๋ธ์ ๋ค๋ฃจ์์ต๋๋ค.
๋จธ์ ๋ฌ๋ | ๋ฅ๋ฌ๋ | |
ํน์ง | 1. ์ฌ๋์ด ํน์ง์ ์ถ์ถํ๊ณ , ํน์ ํจํด์ ์ถ์ถํ๋ ๋ฐฉ๋ฒ์ ์ปดํจํฐ์๊ฒ ์ง์
2. ์ปดํจํฐ๊ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ต (์ฌ๋์ด ์ง์ํ ํจํด์ ๊ธฐ๋ฐํด์ ์ปดํจํฐ๊ฐ ์ค์ค๋ก ๋ฐ์ดํฐ์ ํน์ง์ ๋ถ์ํ๊ณ ์ถ์ ) | 1. ์ปดํจํฐ๊ฐ ์ ํด์ง ์ ๊ฒฝ๋ง์ ๊ธฐ๋ฐ์ผ๋ก ์ค์ค๋ก ํน์ง ์ถ์ถยท๋ถ๋ฅ ์์
์ํ (์ฌ๋์ด ํ๋ ํจํด ์ถ์ถ ์์
์๋ต)
2. ์ปดํจํฐ๊ฐ ๋ฐ์ดํฐ ํ์ต |
๋ฐ์ดํฐ | ์ฃผ๋ก ์ ํ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃธ | ์ฃผ๋ก ๋น์ ํ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃธ |
๋ชจ๋ธ | ๊ฐ์ข
ํ๊ท๋ถ์, Decision Tree | CNN, RNN |
(์ข) ์ฐ๋ฆฌ ๋์ ์ ๊ฒฝ(๋ด๋ฐ) vs (์ฐ) ์ธ๊ณต์ ๊ฒฝ
์๋์ธต๊ณผ ์ญ์
์ญ์ ํ์ chain rule
CNN๊ณผ ์ด๋ฏธ์ง ์ฒ๋ฆฌ ์ฐ์ฐ
์ดํ, ๊ณ ์ ์
๋ ฅํฌ๊ธฐ ๋ฐ์ดํฐ์ ๋ํด ํฉ์ฑ๊ณฑ pooling ๊ณ์ธต ์ฐ์ฐ์ ์ํํ๋ CNN, ํฌ๊ธฐ์ ๊ฐ๋ณ์ฑ์ด ์๋ ์์ฐจ์ ๋ฐ์ดํฐ์ ๋ํด ์ด์ ์์ ์ ์ถ๋ ฅ์ ๊ณ ๋ คํ์ฌ ๊ธฐ์ต๊ณผ ์ฐ์ฐ์ ์ํํ๋ RNN์ ๋น๊ตํ๊ณ , ์ํํ๊ณ ์ ํ๋ task์ ๋ฐ์ดํฐ์ ์ข
๋ฅ์ ๋ฐ๋ผ ์ ํฉํ DL ๋ชจ๋ธ์ ๋
ผ์ํ๊ณ , ๊ตฌ์ฒด์ ์ธ ์๋ฆฌ์ ์ฉ๋ก๋ฅผ ๋น๊ตํ๋ฉฐ ํ์ตํ์ต๋๋ค.
RNN์ ์๋์ธต๊ณผ ํ์ฌ ํ๊น
Session 5. ๊ตฐ์งํ
๊ตฐ์งํ์ ๋ชฉํ์ ํน์ง๋ฅผ ์ดํด๋ณด๊ณ ๊ณ์ธต์ ๊ตฐ์งํ์ ๋น๊ณ์ธต์ ๊ตฐ์งํ์ ๊ตฌ๋ถ์ ๋ํ์ฌ ํ์ตํ์์ต๋๋ค.
๊ณ์ธต์ ๊ตฐ์งํ์ ๋น๊ณ์ธต์ ๊ตฐ์งํ์ ๊ฐ๋
๊ณผ ๋ถ์ ๋ฐฉ๋ฒ์ ๋ํด ๊ตฌ์ฒด์ ์ผ๋ก ์ดํด๋ณด๊ณ ๊ฐ ๊ตฐ์งํ์ ์ํ๋ ๊ตฐ์งํ ๋ฐฉ๋ฒ๋ก ์ ๊ณต๋ถํ์ต๋๋ค.
๊ณ์ธต์ ๊ตฐ์งํ | ๋น๊ณ์ธต์ ๊ตฐ์งํ | |
๋ฐฉ๋ฒ๋ก | ์์ง๋ฒ, ๋ถํ ๋ฒ | K-means, GMM, DBSCAN |
์ฅ์ | ๋ฐ์ดํฐ๊ฐ ์์ ์ ์ ๊ฒฝ์ฐ ์์ ์ ์ผ๋ก ์ฌ์ฉ | ๊ณ์์ ์ผ๋ก ๊ตฐ์ง์ ์ฌ๊ตฌ์ฑ&ํ ๋น
๋ฐ์ดํฐ์ ์๊ฐ ๋ง์ ๊ฒฝ์ฐ ์ ์ฉ |
๋จ์ | ํ ๋ฒ ํ์ฑ๋ ๊ตฐ์ง์ ๋ค์ ํ๋ณํ์ง ์์ | ์ด๊ธฐ ๊ตฐ์ง์ ์ํฅ์ ํฌ๊ฒ ๋ฐ์ ๋ถ์์ ํ ๊ตฐ์ง์ ์ ๊ณตํ ๊ฐ๋ฅ์ฑ |
์ญ์ ํ์ chain rule
๊ตฐ์งํ ์๊ณ ๋ฆฌ์ฆ์ ํ๊ฐ ๋ฐฉ๋ฒ์ ๋ํด ์์๋ณด์์ต๋๋ค. ์ธ๋ถํ๊ฐ๋ ์ด๋ฏธ ์ ํด์ง ์ ๋ต์ ๊ธฐ์ค์ผ๋ก ๊ตฐ์งํ ์๊ณ ๋ฆฌ์ฆ์ ์ ํ๋๋ฅผ ์ธก์ ํ๋ ๋ฐฉ์์ผ๋ก, ์๊ณ ๋ฆฌ์ฆ์ ์ฑ๋ฅ์ ๊ฒ์ฆํ๋ ๋ฐ ์ฌ์ฉ๋๋ ๋ฐ๋ฉด, ๋ด๋ถํ๊ฐ๋ ์ ๋ต ์์ด ๊ตฐ์ง ๋ด ๋ฐ์ดํฐ์ ์์ง์ฑ๊ณผ ๊ตฐ์ง ๊ฐ์ ๋ถ๋ฆฌ๋๋ฅผ ํ๊ฐํ๋ ๋ฐฉ์์ผ๋ก, ์ฃผ๋ก Dunn Index๋ Silhouette ๊ณ์์ ๊ฐ์ ์งํ๋ฅผ ํตํด ์ด๋ค์ง๋ค๋ ์ ์ ์ดํด๋ณด์์ต๋๋ค.
Session 6. ์์ฐ์ธ์ด์ฒ๋ฆฌ(Natural Language Processing)
์์ฐ์ธ์ด์ฒ๋ฆฌ์ ๊ฐ๋
๊ณผ ํ
์คํธ ์ ์ฒ๋ฆฌ, ํผ์ฒ ๋ฒกํฐํ, ์ฃผ์ ์ธ์ด๋ชจ๋ธ๊ณผ ํ
์คํธ ๋ฐ์ดํฐ์ ๋ํ ๋ฒกํฐ์ฐ์ฐ์ ์ดํด๋ณด์์ต๋๋ค. ์ง์ ํ
์คํธ๋ฐ์ดํฐ์ ์ ์ฒ๋ฆฌ๋ฅผ ํ๊ณ , KoNLPy ํจํค์ง๋ฅผ ์ฌ์ฉํด ํํ์ ๋ถ์์ ์ํํ๋ ์ค์ต์ ์งํํ์ต๋๋ค. ์ ํต์ ๋ฐฉ๋ฒ์ธ BoW(Bag-of-Words)๋ก๋ถํฐ TF-IDF(Term Frequency-Inverse Document Frequency) ๊น์ง์ ๊ฐ์ ์ฌํญ์ ์ดํผ๊ณ , ์ต์ ์ ์ธ๊ณต์ ๊ฒฝ๋ง์ ์ฌ์ฉํ๋ Word2Vec์ด ์๋ฏธ๋ก ์ ๊ด๊ณ๋ฅผ ๋ฐ์ํ ์ ์๊ฒ ๋ ๋ฐฐ๊ฒฝ๊น์ง NLP ๋ชจ๋ธ์ ๋ฐ์ ๊ณผ์ ๊ณผ ๊ธฐ๋ฐ ์๋ฆฌ๋ฅผ ํ์ตํ์ต๋๋ค.
LSTM : ์๋์ธต์ ์
์ ์
์ถ๋ ฅ ๊ฒ์ดํธ์ ๋ง๊ฐ ๊ฒ์ดํธ๋ฅผ ์ถ๊ฐํ์ฌ ๊ธฐ์ต์ ๋ํ ์ฐ์ฐ์ ๊ฐ์ ํ์ฌ RNN์ ๋จ์ ์ ๊ฐ์ ํ ๋ชจ๋ธ.
Word2Vec๋ฅผ ํ์ฉํด, ๋จ์ด ๊ฐ์ ์๋ฏธ์ฐ์ฐ์ ์ํํ ์.
์ฃผ๋ณ๋จ์ด๋ก๋ถํฐ ์ค์ฌ๋จ์ด๋ฅผ ํ์ต/์์ธกํ๋, Word2Vec-CBOW.
์ค์ฌ๋จ์ด๋ก๋ถํฐ ์ฃผ๋ณ๋จ์ด๋ฅผ ํ์ต/์์ธกํ๋, Word2Vec-Skip Gram.
๋ฒ์ญ๊ธฐ์ ๋์
๋์ด ์จ seq2seq, ๋ฒ์ญ ์ฑ๋ฅ์ ํ์ ์ ์ผ์ผํจ Transformer , ํ
์คํธ ์์ฑํ AI๋ก ์ฃผ๋ชฉ ๋ฐ์ผ๋ฉฐ ๋ ํ ๋ฒ์ ํ์ ์ ์ผ์ผํค๊ณ ์๋ BERT ๋ชจ๋ธ์ ๊ตฌ์ฑ์ encoder, decoder ๋จ์์๋ถํฐ ์ดํผ์์ผ๋ฉฐ ์ถ๋ ฅ ์ํ์ค์ ์ ํ๋๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋์ธ Attention ํจ์์ ์๋ฆฌ๋ฅผ ํ์ตํ์ต๋๋ค.
Attention Value ์ฐ์ฐ : ์ถ๋ ฅ ๋จ์ด ์์ธก์์ ๋ง๋ค ์ฐ๊ด ๋จ์ด์ ์ง์คํ๋๋ก ๊ฐ์ ํ ๋นํ๋ค.
Attention ๋ถํฌ ์ฐ์ฐ ๋์๊ณผ softmax ํจ์ ์๊ฐํ
BERT ๋ชจ๋ธ์์์ self-Attention
Session 7~8. ์๊ณ์ด
์๊ณ์ด ๋ฐ์ดํฐ์ ์ ์, ์ข
๋ฅ, ํต๊ณ์ ํน์ฑ์ ์ดํผ๊ณ , ํจ์จ์ ์ธ EDA๋ฅผ ์ํ ์ฐจ๋ถ, ๋น๋, Lag์ ๋ํ ์ ์ฒ๋ฆฌ ๊ธฐ๋ฒ์ ํ์ตํ์ต๋๋ค. ๋ณ๋์ฑ๋ถ์ ๋ํ ์์๋ถํด์ ํํํ๋ฅผ ์ค์ตํ๊ณ , ์๊ณ์ด ๋ฐ์ดํฐ ๊ฐ ์๊ด ๋ถ์์ ์ฐ์ด๋ ๋ํ์ ์ธ ๊ณ์์ ํํํ/ํํฐ๋ง EDA๋ฅผ ์ดํด๋ณด์์ต๋๋ค.
์๊ณ์ด ๋ฐ์ดํฐ์์์ ๋ณ๋ : ์ถ์ธ, ์ํ, ๊ณ์ , ์ฐ์ฐ
์๊ณ์ด ๋ฐ์ดํฐ๋?
(1) ์๊ธฐ์๊ด์ฑ(Autocorrelation)
(2) ๋น์ ์์ฑ(Non-stationarity)
(3) ๊ณ์ ์ฑ(Seasonality)
์๊ณ์ด ๋ฐ์ดํฐ์ ์ฐจ๋ถ
ํผ์ด์จ ์๊ด๊ณ์
์๊ณ์ด ๋ฐ์ดํฐ์ ํํํ
๋จ๋ณ๋/๋ค๋ณ๋ ์๊ณ์ด ๋ชจ๋ธ์ ์ดํผ๊ณ , ์๊ธฐ์๊ด, ์๊ธฐํ๊ท, ์์ ์๊ณ์ด์ ๋ํด ํ์ตํ์ต๋๋ค. ๋ณ๋์ฑ์ ๋ค๋ฃจ๋ ๋ชจํ๋ค์ ํน์ง๊ณผ ์ฉ๋ก๋ฅผ ๊ณต๋ถํ๊ณ ์๊ณ์ด ๋ฐ์ดํฐ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ค์ ๋ํด ๋น๊ตํ๋ฉฐ ํ์ตํ์ต๋๋ค.
์๊ธฐ์๊ดํจ์(Auto Correlation Function, ACF)
๋ถ๋ถ์๊ธฐ์๊ดํจ์(Partial ACF, PACF)
๋ค๋ณ๋ ์๊ณ์ด ๋ชจ๋ธ : ARCH
LSTM๊ณผ GRU์ ๋น๊ต
๋จ๋ณ๋ ์๊ณ์ด ๋ชจ๋ธ : N-Beat