๊ต์ก ์ธ์
์ธ์ฌ์ดํธ๋ ์ด 7ํ์ ๊ต์ก์ธ์
(OT ํฌํจ)์ ํตํด ์ ์
๊ธฐ์์ ์ํํธ๋๋ฉ์ ๋๋ชจํ๊ณ ,
ํํ์๋ค์ ์ฒด๊ณ์ ์ธ ๋ฐ์ดํฐ ๋ถ์ ๋ฐ ๋ชจ๋ธ๋ง์ ์ํ ๊ธฐ์ด๋ฅผ ๋ค์ง๊ณ ์์ต๋๋ค.
๊ต์ก ์ธ์
[ํ์ด์ฌ]
ํ๊ธฐ ์ด์๋ Github์ ์ฌ์ฉ๋ฒ๊ณผ Python์ ํ์ตํฉ๋๋ค.
Pandas๋ฅผ ์์ฃผ๋ก Python์ ๊ธฐ์ด๋ถํฐ ์ฌํ๊น์ง, ๊ทธ๋ฆฌ๊ณ EDA์ ํ์ํ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๋ฐ ์๊ฐํ๋ฅผ 4๋ฒ์ ์ธ์
์ ๊ฑธ์ณ ํ์ตํฉ๋๋ค.
Session 0 (OT). Jupyter, Github
๋ณธ ์ธ์
์ ๋ณธ๊ฒฉ์ ์ธ ๊ต์ก ์ธ์
์งํ์ ์์ ์ฌ์ ํ์ต ๊ณผ์ ์ ํด๋นํฉ๋๋ค.
Jupyter Notebook์ ์ค์นํ๊ณ ์ด๊ธฐ ์ค์ ์ ์งํํ์์ต๋๋ค.
๋ํ, ๊ณผ์ ์ ์ถ ๋ฐ ํฌํธํด๋ฆฌ์ค ๊ด๋ฆฌ๋ฅผ ์ํ Github ํ์ฉ ๋ฐฉ๋ฒ์ ๋ํด ํ์ตํ์์ต๋๋ค.
Session 1. Pandas
๋ณธ ์ธ์
์์๋ ๊ธฐ๋ณธ์ ์ธ ํ์ด์ฌ ๋ฌธ๋ฒ์ ๋ณต์ตํ๊ณ , Pandas ๋ฌธ๋ฒ์ ์ค์ ๋ฐ์ดํฐ์ ์ ์ฉํด ๋ณด์์ต๋๋ค.
Session 2. EDA & ์ ์ฒ๋ฆฌ
๋ณธ ์ธ์
์์๋ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ๊ณ ์ดํดํ๊ธฐ ์ํ EDA์ ์ ์ฒ๋ฆฌ ๊ณผ์ ์ ๋ํด ์์๋ณด์์ต๋๋ค. ๋ํ ๋ฐ์ดํฐ๋ฅผ ์ฝ๋ ๋ฐฉ์๊ณผ ์๊ฐํ์ ๊ธฐ์ด์ ์ธ ๋ด์ฉ์ ํ์ตํ๊ณ , EDA์ ๋์๊ณผ ์ข
๋ฅ์ ๋ฐ๋ฅธ EDA ์ ํ์ ํ์
ํ์์ต๋๋ค. ๋ชจ๋ธ๋ง์ ์ํด ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ์ ์น๋ฆฌ ๊ณผ์ ์ ์ดํดํ๊ณ , ํ์ด์ฌ์ ํตํด ์ ์ฒ๋ฆฌ์ ์๊ฐํ ๊ณผ์ ์ ์ค์ตํ์์ต๋๋ค.
4
๊ต์ก ์ธ์
[ํต๊ณ]
ํ์ด์ฌ ๊ต์ก ์ธ์
์ดํ, ์ด 4ํ์ ํต๊ณ ์ธ์
(ํต๊ณ, ํ๊ท, ๋ถ๋ฅ)์ ํตํด ๋ฐ์ดํฐ ๋ถ์์ ๊ธฐ๋ฐ์ด
๋๋ ๊ธฐ์ด์ ์ธ ํต๊ณ ๊ฐ๋
๊ณผ ๋จธ์ ๋ฌ๋(ํ๊ท, ๋ถ๋ฅ)์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ํ์ตํ์ต๋๋ค.
Session 3. ํต๊ณ
๋ณธ ์ธ์
์์๋ ๊ธฐ์ ํต๊ณ์ ์ถ๋ฆฌ ํต๊ณ, ๋ค์ํ ๋ถํฌ๋ค๊ณผ ๊ฐ์ค ๊ฒ์ ์ ์ ์ฐจ ๋ฐ ํด์ ๋ฑ ํต๊ณ์ ๊ด๋ จ๋ ๋ค์ํ ์ด๋ก ์ ๊ธฐ๋ฐ์ ๋ํด ํ์ตํ์ต๋๋ค.
Session 4. ํ๊ท ๊ธฐ์ด
๋ณธ ์ธ์
์์๋ ๋จ์ ์ ํ ํ๊ท, ๋ค์ค ์ ํ ํ๊ท์ ์ด๋ก ์ ๊ธฐ๋ฐ์ ๋ํด ํ์ตํ๊ณ ์ค์ตํด๋ณด๋ ์๊ฐ์ ๊ฐ์ก์ต๋๋ค.
Session 5. ํ๊ท ์ฌํ
๋ณธ ์ธ์
์์๋ ๋ค์ค ์ ํ ํ๊ท์ ๊ธฐ๋ณธ ๊ฐ์ ์ ๊ฒ์ ํด ๋ณด๊ณ ํ๊ท ๋ถ์์ ํ๊ฐ ๋ฐฉ๋ฒ์ ๋ํด ์์๋ณด์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋น์ ํ ํ๊ท ๋ชจ๋ธ์ ํ์ตํ ๋ค ์ค์ ๋ฐ์ดํฐ์ ์ ์ฉํด ๋ณด์์ต๋๋ค.
Session 6. ๋ถ๋ฅ
๋ถ๋ฅ์ ๊ฐ๋
, ์ข
๋ฅ, ํ๊ฐ ์งํ์ ๋ํด ์ดํดํ๊ณ ํ์ดํผํ๋ผ๋ฏธํฐ ์ต์ ํ๋ฅผ ํ์ตํ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ฝ๋๋ฅผ ํตํด ๋ถ๋ฅ ๋ชจ๋ธ์ ๊ตฌํํ๊ณ ํ๊ฐํด ๋ณด์์ต๋๋ค.
์ด๋ค ํ์ดํผํ๋ผ๋ฏธํฐ(Hyperparameters)๋ฅผ ์ค์ ํ๋๋์ ๋ฐ๋ผ ๋ชจ๋ธ ์ฑ๋ฅ(Score)๊ฐ ๋ฌ๋ผ์ง๋ค.
Session 7. ๊ตฐ์งํ
๊ตฐ์งํ์ ๋ชฉํ์ ํน์ง์ ์ดํด๋ณด๊ณ ๊ณ์ธต์ ๊ตฐ์งํ์ ๋น๊ณ์ธต์ ๊ตฐ์งํ์ ๊ตฌ๋ถ์ ๋ํด ํ์ตํ์์ต๋๋ค.
๊ณ์ธต์ ๊ตฐ์งํ์ ๋น๊ณ์ธต์ ๊ตฐ์งํ์ ๊ฐ๋
๊ณผ ๋ถ์ ๋ฐฉ๋ฒ์ ๋ํด ๊ตฌ์ฒด์ ์ผ๋ก ์ดํด๋ณด๊ณ ๊ฐ ๊ตฐ์งํ์ ์ํ๋ ๊ตฐ์งํ ๋ฐฉ๋ฒ๋ก ์ ๊ณต๋ถํ์ต๋๋ค.
๊ณ์ธต์ ๊ตฐ์งํ | ๋น๊ณ์ธต์ ๊ตฐ์งํ | |
๋ฐฉ๋ฒ๋ก | ์์ง๋ฒ, ๋ถํ ๋ฒ | K-means, GMM, DBSCAN |
์ฅ์ | ๋ฐ์ดํฐ๊ฐ ์์ ์ ์ ๊ฒฝ์ฐ ์์ ์ ์ผ๋ก ์ฌ์ฉ | ๊ณ์์ ์ผ๋ก ๊ตฐ์ง์ ์ฌ๊ตฌ์ฑ&ํ ๋น
๋ฐ์ดํฐ์ ์๊ฐ ๋ง์ ๊ฒฝ์ฐ ์ ์ฉ |
๋จ์ | ํ ๋ฒ ํ์ฑ๋ ๊ตฐ์ง์ ๋ค์ ํ๋ณํ์ง ์์ | ์ด๊ธฐ ๊ตฐ์ง์ ์ํฅ์ ํฌ๊ฒ ๋ฐ์ ๋ถ์์ ํ ๊ตฐ์ง์ ์ ๊ณตํ ๊ฐ๋ฅ์ฑ |
๊ตฐ์งํ ์๊ณ ๋ฆฌ์ฆ์ ํ๊ฐ ๋ฐฉ๋ฒ์ ๋ํด ์์๋ณด์์ต๋๋ค. ์ธ๋ถํ๊ฐ๋ ์ด๋ฏธ ์ ํด์ง ์ ๋ต์ ๊ธฐ์ค์ผ๋ก ๊ตฐ์งํ ์๊ณ ๋ฆฌ์ฆ์ ์ ํ๋๋ฅผ ์ธก์ ํ๋ ๋ฐฉ์์ผ๋ก, ์๊ณ ๋ฆฌ์ฆ์ ์ฑ๋ฅ์ ๊ฒ์ฆํ๋ ๋ฐ ์ฌ์ฉ๋๋ ๋ฐ๋ฉด, ๋ด๋ถํ๊ฐ๋ ์ ๋ต ์์ด ๊ตฐ์ง ๋ด ๋ฐ์ดํฐ์ ์์ง์ฑ๊ณผ ๊ตฐ์ง ๊ฐ์ ๋ถ๋ฆฌ๋๋ฅผ ํ๊ฐํ๋ ๋ฐฉ์์ผ๋ก, ์ฃผ๋ก Dunn Index๋ Silhouette ๊ณ์์ ๊ฐ์ ์งํ๋ฅผ ํตํด ์ด๋ค์ง๋ค๋ ์ ์ ์ดํด๋ณด์์ต๋๋ค.
์ฌํ ์ธ์
๊ต์ก ์ธ์
์ ๋ง์น ํ์๋ ์ฌํ ์ธ์
์ ์งํํ์ต๋๋ค.
๋ฐ์ดํฐ ๋ถ์๊ณผ ๋จธ์ ๋ฌ๋ ์ฌํ ์ฃผ์ ์ค ๊ด์ฌ ๋ถ์ผ์ ๋ฐ๋ผ ํ์ ๊ตฌ์ฑํ์๊ณ , ๊ฐ ํ์ ํ์ต ์๋ฃ์ ์ค์ต ๊ณผ์ ๋ฅผ ์ ์ํ์ฌ ์ฃผ 2ํ ์ ๊ท ์ธ์
์ ์งํํ์ต๋๋ค.
Session 1. ์์๋ธ
๋ณธ ์ธ์
์์๋ ์ฌ๋ฌ ๊ฐ์ ๊ฐ๋ณ ๋ถ๋ฅ๋ชจ๋ธ๋ค์ ๊ฒฐํฉํด ํ๋์ ๋ถ๋ฅ๋ชจ๋ธ๋ณด๋ค ๋ ์ข์ ์ฑ๋ฅ์ ๋ด๋ ์์๋ธ์ ๋ํด ๊ณต๋ถํ์ต๋๋ค. ์ข
๋ฅ์ ๋ฐ๋ผ ๋ณดํ
(Voting), ๋ฐฐ๊น
(Bagging), ๋ถ์คํ
(Boosting), ์คํํน(Stacking)์ ๊ตฌ๋ถํ์๊ณ , Random Forest, XGBoost, LightGBM ๋ฑ์ ๋ชจ๋ธ๋ค์ ๋ํด ์์๋ณด์์ต๋๋ค.
์์๋ธ ๊ตฌ์กฐ๋
๋๋ค ํฌ๋ ์คํธ์ ํ๋ก์ธ์ค
LightGBM ์๊ณ ๋ฆฌ์ฆ ์๊ฐ
์คํํน ์๊ณ ๋ฆฌ์ฆ์ ์์๋ณด๊ณ , K ํด๋ ๊ต์ฐจ๊ฒ์ฆ์ ํตํด ํ์ต๊ณผ ๊ฒ์ฆ์ ๋ฐ๋ณต์ ์ผ๋ก ์ํํ๋ ๋ฒ์ ์์๋ณด์์ต๋๋ค.
์คํํน ์๊ณ ๋ฆฌ์ฆ
K ํด๋ ๊ต์ฐจ๊ฒ์ฆ
์์๋ธ์ ํฌํจํ ๋ณต์กํ ๋ชจ๋ธ์ ๊ตฌ์กฐ์ ์ธ ๋ฌธ์ ์ธ ๋ธ๋๋ฐ์ค ๋ฌธ์ ์, ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ LIME ์๊ณ ๋ฆฌ์ฆ์ ๋ํด ์์๋ณด์์ต๋๋ค.
LIME ์๊ณ ๋ฆฌ์ฆ์ ํตํ ๋ธ๋๋ฐ์ค ํด์ ํ๋ก์ธ์ค
Session 2. ์ถ์ฒ์์คํ
์ถ์ฒ์์คํ
์ ๋ฑ์ฅ ๋ฐฐ๊ฒฝ๊ณผ ๊ด๋ จ ๊ธฐ์ ์ ๋ฐ์ ์ ์ดํผ๊ณ , ๋ด์ฉ ๊ธฐ๋ฐ ํํฐ๋ง๊ณผ ํ์
ํํฐ๋ง์ ์๋ฆฌ๋ฅผ ์ดํดํฉ๋๋ค. ๋ด์ฉ ๊ธฐ๋ฐ ํํฐ๋ง๊ณผ ๊ด๋ จํ์ฌ ์ํ(์์ดํ
)์ ๋ํ ๋ฒกํฐ ์ฐ์ฐ์ ์ค์ตํ์ต๋๋ค. ํ์
ํํฐ๋ง๊ณผ ๊ด๋ จํ์ฌ, ๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ฐ๊ณผ ๋ชจ๋ธ ๊ธฐ๋ฐ ๋ฐฉ์์ ํ์ตํ๊ณ , ๊ฐ ๋ฐฉ์์ ๋ํ ์ ์ฌ๋, ํ๋ ฌ ์ฐ์ฐ์ ์ค์ตํ์ต๋๋ค.
๋ชจ๋ธ ๊ธฐ๋ฐ ํํฐ๋ง๊ณผ ๊ด๋ จํ์ฌ, ํด๋ฌ์คํฐ๋ง, ํ ํฝ ๋ชจ๋ธ, ํ๋ ฌ ๋ถํด ๋ชจ๋ธ์ ์ดํด๋ณด๊ณ ์ถ์ฒ ๋ชจ๋ธ์ ํ๊ฐ ์งํ๋ฅผ ํ์ตํ์ต๋๋ค.
์ฐ๋๋ณ ์ถ์ฒ์์คํ
์ ์ฌ์ฉ๋ ๋ํ์ ์ธ ๊ธฐ์
์ถ์ฒ์์คํ
์ ๋ถ๋ฅ
๋ด์ฉ(์ฝํ ์ธ ) ๊ธฐ๋ฐ ํํฐ๋ง
โข
์ฑ
์ ์ ๋ชฉ์ด๋ ์ ์, ์ฅ๋ฅด ๋ฑ๊ณผ ๊ฐ์ด ์์ดํ
์ ๋ด์ฉ์ ๋ํ๋ด๋ ์ ๋ณด๋ฅผ ์ฌ์ฉ
โข
์ฌ์ฉ์๊ฐ ์ ํธํ๋ ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ด์ฉ์ด ๋น์ทํ ์์ดํ
์ ๊ณ์ฐํจ์ผ๋ก์จ ์ถ์ฒ์ ์ํํ๋ ์๊ณ ๋ฆฌ์ฆ
ํ์ (ํ์กฐ) ํํฐ๋ง
โข
์๋น์ค ๋ด์ ์๋ ๋ค๋ฅธ ์ฌ์ฉ์์ ๊ณผ๊ฑฐ ํ๋ ๋ฑ์ ํตํด ์ป์ด์ง ๊ธฐํธ ๊ฒฝํฅ์ ํ์ฉํ๋ ์ถ์ฒ ์๊ณ ๋ฆฌ์ฆ.
ํน์ด๊ฐ ๋ถํด
Session 3. ์ฐ๊ด๋ถ์
์ ํต์
๊ณ์์ โ์ฅ๋ฐ๊ตฌ๋ ๋ถ์โ์ด๋ผ๊ณ ๋ ๋ถ๋ฅด๋ ์ฐ๊ด ๋ถ์์ ๋ํด ๊ณต๋ถํ์ต๋๋ค. ์ฃผ์ ๊ฐ๋
์ ์ดํดํ๊ณ , ์ดํ Apriori, FP-Growth ์๊ณ ๋ฆฌ์ฆ์ ๋น๊ตํ๋ฉฐ ์์๋ณด์์ต๋๋ค. ๋ํ ์ด์ ์ธ์
์ ๋ด์ฉ์ด์๋ ํ์
ํํฐ๋ง๊ณผ ๋น๊ตํด๋ณด์์ต๋๋ค.
Apripori ์๊ณ ๋ฆฌ์ฆ
FP-Growth ์๊ณ ๋ฆฌ์ฆ
ํ์
ํํฐ๋ง vs ์ฐ๊ด๋ถ์
๊ตฌ๋ถ | ์ํ๊ธฐ๋ฐ ํ์
ํํฐ๋ง | ์ฐ๊ด๋ถ์(์ฅ๋ฐ๊ตฌ๋ ๋ถ์) |
์ฐ์ฐ ๋ฐฉ์ | ์๊ด๊ด๊ณ ๊ธฐ๋ฐ(๊ฐ์ ๋ฐฉํฅ์ผ๋ก ์ฆ๊ฐํ๋ ๊ฐ๋) | ๊ต์งํฉ ๊ธฐ๋ฐ(์ฅ๋ฐ๊ตฌ๋์ ๊ฐ์ด ๋ด๊ฒจ์๋ ๋น์จ) |
์๊ณ ๋ฆฌ์ฆ ๊ตฌ์กฐ | ์ํ๋ง๋ค ํ ์ํ๊ณผ 1:1 ๊ณ์ฐ(ํน์ ์ํ์ ๊ตฌ๋งค๋ฐ์ดํฐ๋ฅผ ๋ค๋ฅธ ์ํ์ ๊ตฌ๋งค๋ฐ์ดํฐ์ ๋น๊ต) | ์ํ๋ง๋ค ์ฃผ๋ฌธ๋ด์ญ์ 1:n ๊ณ์ฐ(ํน์ ์ํ์ด ํฌํจ๋ ๊ตฌ๋งค๋ฐ์ดํฐ์์ ๋ค๋ฅธ ์ํ์ ๋น์จ์ ๊ณ์ฐ) |
ํน์ง | ์ฌ์ฉ์์ ๊ฐ์ธ ์ ํธ๋(ํ๊ฐ์ ์, ๊ตฌ๋งคํ์ ๋ฑ)์ ๋ฐ๋ผ ์ ํธ ์ํ ์ถ์ถ ๊ฐ๋ฅ | ์ํ๊ณผ ์ฐ๊ด์ฑ์ด ๋์ 1๊ฐ์ด์์ ์ํ์ ์ธํธ๋ก ์ถ์ถ ๊ฐ๋ฅ |
์ถ์ฒ ๋ฐฉ์ | ํ ์ํ์ ์ ์ฌ๋ ์์๋๋ก ๋
ธ์ถ | ์ฐ๊ด์งํ๊ฐ ๋์ ์ธํธ์ํ(1๊ฐ์ด์) ๋
ธ์ถ |
์ค๋ฌด์์ ๋ง์ด ํ์ฉ๋๋ ๊ธฐ๋ฒ์ธ ๋งํผ ์ค์ ํ์ฉ์ฌ๋ก๋ฅผ ์์๋ณด์์ต๋๋ค. ์๋งค, ์๋ฃ, ๊ธ์ต, ์น, ๋ฒ ์ด์ปค๋ฆฌ ๋ฑ์ ๋๋ฉ์ธ์ ์์น๋ฅผ ๋ฐํ์ผ๋ก ์ ๋ต์ ์ ์ํด๋ณด๊ณ , ์ค์ ๋ทํ๋ฆญ์ค์์ ์ฌ์ฉ๋ ์ฐ๊ด๋ถ์์ ๋ํด ์์๋ณด์์ต๋๋ค.
๋ฒ ์ด์ปค๋ฆฌ ์ปจ์คํ
์์ . ์์ ํ๋ฅผ ํตํด ๋๋ฆ์ ์ ๋ต์ ์ ์ํด๋ณด์!
Session 4~5. ๋ฅ๋ฌ๋
์ธ๊ณต์ง๋ฅ(AI), ๋จธ์ ๋ฌ๋, ๋ฅ๋ฌ๋์ ๊ฐ๋
์ ์ดํผ๊ณ ๋น์ ํ ๋ฐ์ดํฐ์ ๋ํด ์๊ฐํ์ต ํ๋ ๋ฅ๋ฌ๋์ ๋ํด ๊ณต๋ถํ์ต๋๋ค. ์ธ๊ณต์ ๊ฒฝ๋ง(Artificial Neural Network, ANN) ๋ชจ๋ธ ๋ด ์์ฌ๊ฒฐ์ ์๋ฆฌ๋ฅผ ์ดํผ๊ณ ํผ์
ํธ๋ก ์ ๊ตฌ์กฐ์ ๋ค์ธตํ์ ์ ๊ฒฝ๋ง์ผ๋ก์ ์ฐ๊ฒฐ, ๊ตฌ์ฒด์ ์ธ ์ ๊ฒฝ๋ง ํ์ต ๋ชจ๋ธ์ ๋ค๋ฃจ์์ต๋๋ค.
๋จธ์ ๋ฌ๋ | ๋ฅ๋ฌ๋ | |
ํน์ง | 1. ์ฌ๋์ด ํน์ง์ ์ถ์ถํ๊ณ , ํน์ ํจํด์ ์ถ์ถํ๋ ๋ฐฉ๋ฒ์ ์ปดํจํฐ์๊ฒ ์ง์
2. ์ปดํจํฐ๊ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ต (์ฌ๋์ด ์ง์ํ ํจํด์ ๊ธฐ๋ฐํด์ ์ปดํจํฐ๊ฐ ์ค์ค๋ก ๋ฐ์ดํฐ์ ํน์ง์ ๋ถ์ํ๊ณ ์ถ์ ) | 1. ์ปดํจํฐ๊ฐ ์ ํด์ง ์ ๊ฒฝ๋ง์ ๊ธฐ๋ฐ์ผ๋ก ์ค์ค๋ก ํน์ง ์ถ์ถยท๋ถ๋ฅ ์์
์ํ (์ฌ๋์ด ํ๋ ํจํด ์ถ์ถ ์์
์๋ต)
2. ์ปดํจํฐ๊ฐ ๋ฐ์ดํฐ ํ์ต |
๋ฐ์ดํฐ | ์ฃผ๋ก ์ ํ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃธ | ์ฃผ๋ก ๋น์ ํ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃธ |
๋ชจ๋ธ | ๊ฐ์ข
ํ๊ท๋ถ์, Decision Tree | CNN, RNN |
(์ข) ์ฐ๋ฆฌ ๋์ ์ ๊ฒฝ(๋ด๋ฐ) vs (์ฐ) ์ธ๊ณต์ ๊ฒฝ
์๋์ธต๊ณผ ์ญ์
์ญ์ ํ์ chain rule
CNN์ ์ฐ์ฐ ๊ณผ์
์ดํ, ๊ณ ์ ์
๋ ฅํฌ๊ธฐ ๋ฐ์ดํฐ์ ๋ํด ํฉ์ฑ๊ณฑ pooling ๊ณ์ธต ์ฐ์ฐ์ ์ํํ๋ CNN, ํฌ๊ธฐ์ ๊ฐ๋ณ์ฑ์ด ์๋ ์์ฐจ์ ๋ฐ์ดํฐ์ ๋ํด ์ด์ ์์ ์ ์ถ๋ ฅ์ ๊ณ ๋ คํ์ฌ ๊ธฐ์ต๊ณผ ์ฐ์ฐ์ ์ํํ๋ RNN์ ๋น๊ตํ๊ณ , ์ํํ๊ณ ์ ํ๋ task์ ๋ฐ์ดํฐ์ ์ข
๋ฅ์ ๋ฐ๋ผ ์ ํฉํ DL ๋ชจ๋ธ์ ๋
ผ์ํ๊ณ , ๊ตฌ์ฒด์ ์ธ ์๋ฆฌ์ ์ฉ๋ก๋ฅผ ๋น๊ตํ๋ฉฐ ํ์ตํ์ต๋๋ค.
RNN์ ์๋์ธต๊ณผ ํ์ฌ ํ๊น
Session 6~7. ์์ฐ์ด์ฒ๋ฆฌ(Natural Language Processing)
์์ฐ์ธ์ด์ฒ๋ฆฌ์ ๊ฐ๋
๊ณผ ํ
์คํธ ์ ์ฒ๋ฆฌ, ํผ์ฒ ๋ฒกํฐํ, ์ฃผ์ ์ธ์ด๋ชจ๋ธ๊ณผ ํ
์คํธ ๋ฐ์ดํฐ์ ๋ํ ๋ฒกํฐ์ฐ์ฐ์ ์ดํด๋ณด์์ต๋๋ค. ์ง์ ํ
์คํธ๋ฐ์ดํฐ์ ์ ์ฒ๋ฆฌ๋ฅผ ํ๊ณ , KoNLPy ํจํค์ง๋ฅผ ์ฌ์ฉํด ํํ์ ๋ถ์์ ์ํํ๋ ์ค์ต์ ์งํํ์ต๋๋ค. ์ ํต์ ๋ฐฉ๋ฒ์ธ BoW(Bag-of-Words)๋ก๋ถํฐ TF-IDF(Term Frequency-Inverse Document Frequency) ๊น์ง์ ๊ฐ์ ์ฌํญ์ ์ดํผ๊ณ , ์ต์ ์ ์ธ๊ณต์ ๊ฒฝ๋ง์ ์ฌ์ฉํ๋ Word2Vec์ด ์๋ฏธ๋ก ์ ๊ด๊ณ๋ฅผ ๋ฐ์ํ ์ ์๊ฒ ๋ ๋ฐฐ๊ฒฝ๊น์ง NLP ๋ชจ๋ธ์ ๋ฐ์ ๊ณผ์ ๊ณผ ๊ธฐ๋ฐ ์๋ฆฌ๋ฅผ ํ์ตํ์ต๋๋ค.
LSTM : ์๋์ธต์ ์
์ ์
์ถ๋ ฅ ๊ฒ์ดํธ์ ๋ง๊ฐ ๊ฒ์ดํธ๋ฅผ ์ถ๊ฐํ์ฌ ๊ธฐ์ต์ ๋ํ ์ฐ์ฐ์ ๊ฐ์ ํ์ฌ RNN์ ๋จ์ ์ ๊ฐ์ ํ ๋ชจ๋ธ.
Word2Vec๋ฅผ ํ์ฉํด, ๋จ์ด ๊ฐ์ ์๋ฏธ์ฐ์ฐ์ ์ํํ ์.
์ฃผ๋ณ๋จ์ด๋ก๋ถํฐ ์ค์ฌ๋จ์ด๋ฅผ ํ์ต/์์ธกํ๋, Word2Vec-CBOW.
์ค์ฌ๋จ์ด๋ก๋ถํฐ ์ฃผ๋ณ๋จ์ด๋ฅผ ํ์ต/์์ธกํ๋, Word2Vec-Skip Gram.
๋ฅ๋ฌ๋ ์ธ์
์์ ๋ฐฐ์ด RNN์ ๋ํด ๋ณต์ตํ๊ณ , ๊ฐ์ ๋ ์ํคํ
์ฒ์ธ LSTM๊ณผ GRU์ ๋ํด ์์๋ณด์์ต๋๋ค. ๋ฒ์ญ๊ธฐ์ ๋์
๋์ด ์จ seq2seq, ๋ฒ์ญ ์ฑ๋ฅ์ ํ์ ์ ์ผ์ผํจ Transformer , ํ
์คํธ ์์ฑํ AI๋ก ์ฃผ๋ชฉ ๋ฐ์ผ๋ฉฐ ๋ ํ ๋ฒ์ ํ์ ์ ์ผ์ผํค๊ณ ์๋ BERT ๋ชจ๋ธ์ ๊ตฌ์ฑ์ encoder, decoder ๋จ์์๋ถํฐ ์ดํผ์์ผ๋ฉฐ ์ถ๋ ฅ ์ํ์ค์ ์ ํ๋๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋์ธ Attention ํจ์์ ์๋ฆฌ๋ฅผ ํ์ตํ์ต๋๋ค.
Attention Value ์ฐ์ฐ : ์ถ๋ ฅ ๋จ์ด ์์ธก์์ ๋ง๋ค ์ฐ๊ด ๋จ์ด์ ์ง์คํ๋๋ก ๊ฐ์ ํ ๋นํ๋ค.
Attention ๋ถํฌ ์ฐ์ฐ ๋์๊ณผ softmax ํจ์ ์๊ฐํ
BERT ๋ชจ๋ธ์์์ self-Attention
ํธ๋์คํฌ๋จธ๋ฅผ ํ์ฉํ ์ธ์ฝ๋, ๋์ฝ๋ ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ธ BERT์ GPT๋ฅผ ๊ตฌ๋ถํ์ฌ ํ์ตํ์์ต๋๋ค. ์ธ๋ถ ์ง์ ๋ฒ ์ด์ค๋ฅผ ์ฐ๊ฒฐํด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋์ด๋ RAG์ ๋ํด ์์๋ณด๊ณ , LLM์ ํ์ฉํ๋ ๊ฐ๋ฐ ํ๋ ์์ํฌ์ธ ๋ญ์ฒด์ธ์ ๋ํด ์์๋ณด์์ต๋๋ค.
BERT | GPT |
ํธ๋์คํฌ๋จธ์ ์ธ์ฝ๋๋ง ์ฌ์ฉ | ํธ๋์คํฌ๋จธ์ ๋์ฝ๋๋ง ์ฌ์ฉ |
์๋ฐฉํฅ(์๋ค ๋ฌธ๋งฅ ๋ชจ๋ ์ฐธ์กฐ) | ๋จ๋ฐฉํฅ(์ผ์ชฝ โ ์ค๋ฅธ์ชฝ) |
MLM + NSP๋ก ํ์ต | ๋ค์ ๋จ์ด ์์ธกํ๋ ๋ฐฉ์์ผ๋ก ํ์ต |
์ธ์ด ์ดํด | ์ธ์ด ์์ฑ |
2018(Google) | 2018 ~(OpenAI) |
์ง๋ฌธ ์๋ต, ๊ฐ์ ๋ถ์, ๋ฌธ์ ๋ถ๋ฅ, ๊ฒ์ ๋ฑ | ๊ธ์ฐ๊ธฐ, ๋ํ, ์์ฝ, ๋ฒ์ญ, ์ฑ๋ด ๋ฑ |
RAG์ ๊ตฌ์กฐ ์์
๋ญ์ฒด์ธ์ผ๋ก ๊ตฌ์ฑํ RAG ์ํฌ ํ๋ก์ธ์ค
Session 8~9. ์๊ณ์ด
์๊ณ์ด ๋ฐ์ดํฐ์ ์ ์, ์ข
๋ฅ์ ํจ๊ป ์๊ฐ ์์กด์ฑ, ์๊ธฐ์๊ด, ์ถ์ธ, ๊ณ์ ์ฑ ๊ฐ์ ํต์ฌ ํต๊ณ์ ํน์ฑ์ ํ์ตํ์ต๋๋ค. ์๊ณ์ด์ ์ถ์ธ, ๊ณ์ ์ฑ, ์ํ, ๋ถ๊ท์น ์์ธ์ผ๋ก ๋ถํดํ๋ ๊ธฐ๋ฒ์ ์ตํ๊ณ , ๋ถ์์ ์ ์ ์กฐ๊ฑด์ธ ์ ์์ฑ(Stationarity)์ ๊ฐ๋
๊ณผ ์ค์์ฑ์ ๋ํด ํ์ตํ์์ต๋๋ค. ๋ํ, ์๊ฐ์ ํ์ ๋ฐ ํต๊ณ ๊ฒ์ ์ ํตํด ์ ์์ฑ์ ํ๋จํ๊ณ , Pandas๋ฅผ ํ์ฉํด ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ฉฐ ์ ์์ฑ์ ํ๋ณดํ๋ ๋ค์ํ ๋ฐฉ๋ฒ๋ค์ ์ดํด๋ณด์์ต๋๋ค.
์๊ณ์ด์์์ ์ถ์ธ์ฑ, ๊ณ์ ์ฑ, ์ฃผ๊ธฐ์ฑ, ๋ถ๊ท์น ์์ธ
์๊ณ์ด์์์ ์ฐจ๋ถ
์๊ณ์ด ๋ฐ์ดํฐ๋?
(1) ์๊ธฐ์๊ด์ฑ(Autocorrelation)
(2) ๋น์ ์์ฑ(Non-stationarity)
(3) ๊ณ์ ์ฑ(Seasonality)
๋ก๊ทธ ๋ณํ์ ํตํ ๋ถ์ฐ ์์ ํ
๋จ๋ณ๋/๋ค๋ณ๋ ์๊ณ์ด ๋ชจ๋ธ์ ์ดํด๋ณด์์ต๋๋ค. ๋จ๋ณ๋ ์๊ณ์ด ๋ชจ๋ธ์ ์์ ์ / ๋ถ์์ ์๊ณ์ด ๋ชจ๋ธ๋ก ๊ตฌ๋ถํ์ฌ AR, MA, ARMA / ARIMA, SARIMA์ ๋ํด ํ์ตํ์ต๋๋ค. VAR์ ํตํด ๋ค๋ณ๋ ์๊ณ์ด ๋ถ์์ ๊ณต๋ถํ๊ณ , RNN, Transformer ๊ธฐ๋ฐ์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๊ณผ Foundation model์ ๋ํด ์์๋ณด์์ต๋๋ค.
์๊ธฐ์๊ดํจ์(Auto Correlation Function, ACF)
VAR ๋ชจ๋ธ ์์
๋ถ๋ถ์๊ธฐ์๊ดํจ์(Partial ACF, PACF)
๋ค์ค ์์ ์๊ณ์ด ์์ธก ๋ชจ๋ธ : TFT