Search
Duplicate

Session

ํƒœ๊ทธ

๊ต์œก ์„ธ์…˜

์ธ์‚ฌ์ดํŠธ๋Š” ์ด 7ํšŒ์˜ ๊ต์œก์„ธ์…˜(OT ํฌํ•จ)์„ ํ†ตํ•ด ์‹ ์ž… ๊ธฐ์ˆ˜์˜ ์†Œํ”„ํŠธ๋žœ๋”ฉ์„ ๋„๋ชจํ•˜๊ณ , ํ•™ํšŒ์›๋“ค์˜ ์ฒด๊ณ„์ ์ธ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฐ ๋ชจ๋ธ๋ง์„ ์œ„ํ•œ ๊ธฐ์ดˆ๋ฅผ ๋‹ค์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๊ต์œก ์„ธ์…˜ [ํŒŒ์ด์ฌ]

ํ•™๊ธฐ ์ดˆ์—๋Š” Github์˜ ์‚ฌ์šฉ๋ฒ•๊ณผ Python์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. Pandas๋ฅผ ์œ„์ฃผ๋กœ Python์˜ ๊ธฐ์ดˆ๋ถ€ํ„ฐ ์‹ฌํ™”๊นŒ์ง€, ๊ทธ๋ฆฌ๊ณ  EDA์— ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ๋ฐ ์‹œ๊ฐํ™”๋ฅผ 4๋ฒˆ์˜ ์„ธ์…˜์— ๊ฑธ์ณ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

Session 0 (OT). Jupyter Notebook, ํŒŒ์ด์ฌ ๊ธฐ์ดˆ

๋ณธ ์„ธ์…˜์€ ๋ณธ๊ฒฉ์ ์ธ ๊ต์œก ์„ธ์…˜ ์ง„ํ–‰์— ์•ž์„  ์‚ฌ์ „ ํ•™์Šต๊ณผ์ •์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค. Jupyter Notebook์„ ์„ค์น˜ํ•˜๊ณ  ์ดˆ๊ธฐ ์„ค์ •์„ ์ง„ํ–‰ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ธฐ๋ณธ์ ์ธ ํŒŒ์ด์ฌ ๋ฌธ๋ฒ•์„ ํ•™์Šต ๋ฐ ๋ณต์Šตํ•˜๊ณ , Pandas ๊ธฐ์ดˆ ์ดํ•ด๋ฅผ ์œ„ํ•œ ํ•™์Šต์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.

Session 1. Github, Pandas

๋ณธ ์„ธ์…˜์—์„œ๋Š” ๊ณผ์ œ ์ œ์ถœ ๋ฐ ํฌํŠธํด๋ฆฌ์˜ค ๊ด€๋ฆฌ๋ฅผ ์œ„ํ•œ Github ํ™œ์šฉ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ํ•™์Šตํ–ˆ์œผ๋ฉฐ, Pandas ๋ฌธ๋ฒ•์„ ์‹ค์ œ ๋ฐ์ดํ„ฐ์— ์ ์šฉํ•ด๋ณด๋ฉฐ ๋ณธ๊ฒฉ์ ์œผ๋กœ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค.

Session 2. EDA : ์ฝ๊ธฐ, ์‹œ๊ฐํ™”

๋ณธ ์„ธ์…˜์—์„œ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๊ณ  ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด EDA๊ฐ€ ๋ฌด์—‡์ธ์ง€ ์•Œ์•„๋ณด์•˜์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋ฐ์ดํ„ฐ๋ฅผ ์ฝ๋Š” ๋ฐฉ์‹๊ณผ ์‹œ๊ฐํ™”์˜ ๊ธฐ์ดˆ์ ์ธ ๋‚ด์šฉ์„ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค.

Session 3. EDA : EDA, ์ „์ฒ˜๋ฆฌ

๋ณธ ์„ธ์…˜์—์„œ๋Š” EDA์˜ ๋Œ€์ƒ๊ณผ ์ข…๋ฅ˜๋ฅผ ๋‚˜๋ˆ„๊ณ  ๊ทธ์— ๋”ฐ๋ฅธ EDA ์œ ํ˜•์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ๋ณธ๊ฒฉ์ ์ธ ๊ทธ๋ฆฌ๊ณ  ๋ฐ์ดํ„ฐ ๋ถ„์„ ์ „ ํ•„์ˆ˜์ ์ธ ๊ณผ์ •์ธ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ๊ณผ์ •์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์•˜์Šต๋‹ˆ๋‹ค.

๊ต์œก ์„ธ์…˜ [ํ†ต๊ณ„]

ํŒŒ์ด์ฌ ๊ต์œก ์„ธ์…˜ ์ดํ›„, ์ด 3ํšŒ์˜ ํ†ต๊ณ„ ์„ธ์…˜(ํ†ต๊ณ„, ํšŒ๊ท€, ๋ถ„๋ฅ˜)์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ๋ถ„์„์˜ ๊ธฐ๋ฐ˜์ด ๋˜๋Š” ๊ธฐ์ดˆ์ ์ธ ํ†ต๊ณ„ ๊ฐœ๋…๊ณผ ๋จธ์‹  ๋Ÿฌ๋‹(ํšŒ๊ท€, ๋ถ„๋ฅ˜)์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค.

Session 4. ํ†ต๊ณ„

๋ณธ ์„ธ์…˜์—์„œ๋Š” ๊ธฐ์ˆ  ํ†ต๊ณ„์™€ ๋ชจ์ง‘ ์ถ”๋ก  ํ†ต๊ณ„, ๋‹ค์–‘ํ•œ ๋ถ„ํฌ๋“ค๊ณผ ๊ฐ€์„ค๊ฒ€์ •์˜ ์ ˆ์ฐจ ๋ฐ ํ•ด์„ ๋“ฑ ํ†ต๊ณ„์™€ ๊ด€๋ จํ•œ ๋‹ค์–‘ํ•œ ์ด๋ก ์  ๊ธฐ๋ฐ˜์— ๋Œ€ํ•ด ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค.

Session 5. ํšŒ๊ท€ ๊ธฐ์ดˆ

๋ณธ ์„ธ์…˜์—์„œ๋Š” ๋‹จ์ˆœ ์„ ํ˜• ํšŒ๊ท€, ๋‹ค์ค‘ ์„ ํ˜• ํšŒ๊ท€, ํšŒ๊ท€ ๋ชจํ˜•์˜ ๊ฐ€์ • ์ง„๋‹จ ๋“ฑ ํšŒ๊ท€ ๋ถ„์„๊ณผ ๊ด€๋ จํ•œ ์ด๋ก ์  ๊ธฐ๋ฐ˜์— ๋Œ€ํ•ด ํ•™์Šตํ•˜๊ณ , ์‹ค์Šตํ•ด๋ณด๋Š” ์‹œ๊ฐ„์„ ๊ฐ€์กŒ์Šต๋‹ˆ๋‹ค.

Session 6. ๋ถ„๋ฅ˜ ๊ธฐ์ดˆ

๋ถ„๋ฅ˜์˜ ๊ฐœ๋…, ์ข…๋ฅ˜, ํ‰๊ฐ€ ์ง€ํ‘œ์— ๋Œ€ํ•ด ์ดํ•ดํ•˜๊ณ  ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์ตœ์ ํ™”๋ฅผ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ฝ”๋“œ๋ฅผ ํ†ตํ•ด ๋ถ„๋ฅ˜ ๋ชจ๋ธ์„ ๊ตฌํ˜„ํ•˜๊ณ  ํ‰๊ฐ€ํ•ด ๋ณด์•˜์Šต๋‹ˆ๋‹ค.
์–ด๋–ค ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ(Hyperparameters)๋ฅผ ์„ค์ •ํ•˜๋Š๋ƒ์— ๋”ฐ๋ผ ๋ชจ๋ธ ์„ฑ๋Šฅ(Score)๊ฐ€ ๋‹ฌ๋ผ์ง„๋‹ค.

์‹ฌํ™” ์„ธ์…˜

๊ต์œก ์„ธ์…˜์„ ๋งˆ์นœ ํ›„์—๋Š” ์‹ฌํ™” ์„ธ์…˜์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ๋ถ„์„๊ณผ ๋จธ์‹ ๋Ÿฌ๋‹ ์‹ฌํ™” ์ฃผ์ œ ์ค‘ ๊ด€์‹ฌ ๋ถ„์•ผ์— ๋”ฐ๋ผ ํŒ€์„ ๊ตฌ์„ฑํ•˜์˜€๊ณ , ๊ฐ ํŒ€์€ ํ•™์Šต ์ž๋ฃŒ์™€ ์‹ค์Šต ๊ณผ์ œ๋ฅผ ์ œ์ž‘ํ•˜์—ฌ ์ฃผ 2ํšŒ ์ •๊ทœ ์„ธ์…˜์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.

Session 1~2. ์ง€๋„ํ•™์Šต ์‹ฌํ™”

๋ณธ ์„ธ์…˜์—์„ , ๋ณธ๊ฒฉ์ ์ธ ์ง€๋„ํ•™์Šต ๋‚ด์šฉ์„ ์ด์ˆ˜ํ•˜๊ธฐ ์•ž์„œ ์†์‹คํ•จ์ˆ˜์™€ ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์˜ ๊ฐœ๋…์— ๋Œ€ํ•ด ์•Œ์•„๋ดค์Šต๋‹ˆ๋‹ค.
๊ทœ์ œ์„ ํ˜•๋ชจ๋ธ์˜ ๊ฐœ๋…์— ๋Œ€ํ•ด ๋น„์šฐ๊ณ  ๋ฆฟ์ง€ ํšŒ๊ณ„(L2 ๊ทœ์ œ), ๋ผ์˜ ํšŒ๊ท€(L1 ๊ทœ์ œ)์— ๋Œ€ํ•˜์—ฌ ์•Œ์•„๋ณด์•˜์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋‘ ํšŒ๊ท€์˜ ๋‹จ์ ์„ ๋ณด์™„ํ•œ ์—˜๋‚˜์Šคํ‹ฑ๋„ท ํšŒ๊ท€์— ๋Œ€ํ•˜์—ฌ ๊ณต๋ถ€ํ–ˆ์Šต๋‹ˆ๋‹ค.
์ฐจ์›์ถ•์†Œ์— ๋Œ€ํ•˜์—ฌ ๊ณต๋ถ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ PCA (์ฃผ์„ฑ๋ถ„ ๋ถ„์„, Principal Component Analysis), LCD(์„ ํ˜• ํŒ๋ณ„ ๋ถ„์„), NMF (๋น„์Œ์ˆ˜ ํ–‰๋ ฌ ๋ถ„ํ•ด), SVD (ํŠน์ด๊ฐ’ ๋ถ„ํ•ด)์˜ ๊ฐœ๋…๊ณผ ํ•„์š”ํ•œ ์ด์œ ์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์•˜์Šต๋‹ˆ๋‹ค.
์ฐจ์›์ถ•์†Œ
SVD
NMF
๋น„์„ ํ˜• ํšŒ๊ท€๋ชจ๋ธ(๋‹คํ•ญ ํšŒ๊ท€, ๋กœ๊ทธ ํšŒ๊ท€, ์ง€์ˆ˜ ํšŒ๊ท€ ์Šคํ”Œ๋ผ์ธ ํšŒ๊ท€)์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๊ณ  ๊ฐ ํšŒ๊ท€์˜ ์‚ฌ์šฉ ๋ฐฉ๋ฒ• ๋ฐ ์ ํ•ฉํ•œ ์ƒํ™ฉ์— ๋Œ€ํ•˜์—ฌ ๋ฐฐ์› ์Šต๋‹ˆ๋‹ค. ๋‹ค์ค‘ ๋ถ„๋ฅ˜ ๋ชจ๋ธ๊ณผ ์•™์ƒ๋ธ” ๊ธฐ๋ฒ•์— ๋Œ€ํ•ด์„œ๋„ ํ•™์Šตํ•˜์˜€์Šต๋‹ˆ๋‹ค.
์•™์ƒ๋ธ” Ensemble ?
โ€ข
์—ฌ๋Ÿฌ ๊ฐœ์˜ ๊ฐœ๋ณ„ ๋ถ„๋ฅ˜๋ชจ๋ธ๋“ค์„ โ€œ๊ฒฐํ•ฉโ€ํ•ด ํ•˜๋‚˜์˜ ๋ถ„๋ฅ˜๋ชจ๋ธ๋ณด๋‹ค ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ด๋Š” ๋จธ์‹ ๋Ÿฌ๋‹ ๊ธฐ๋ฒ•
โ€ข
์ฆ‰, ์—ฌ๋Ÿฌ ์•ฝ ๋ถ„๋ฅ˜๊ธฐ(Weak Classifier)๋ฅผ ๋ณ‘๋ ฌ ๋˜๋Š” ์ง๋ ฌ๋กœ ๊ฒฐํ•ฉํ•˜์—ฌ ๊ฐ• ๋ถ„๋ฅ˜๊ธฐ(Strong Classifier)๋กœ ๋งŒ๋“œ๋Š” ๊ฒƒ!
โ€ข
์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๊ณ  ๊ฐ ๋ชจ๋ธ์˜ ์˜ˆ์ธก ๊ฒฐ๊ณผ๋ฅผ ์ข…ํ•ฉํ•ด์„œ ์ตœ์ข… ์˜ˆ์ธก
ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ํ•„์š”์„ฑ์„ ์•Œ์•„๋ณด๊ณ  ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ ์ตœ์ ํ™” ๊ณผ์ •์„ ๊ณต๋ถ€ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
์–ด๋–ค ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ(Hyperparameters)๋ฅผ ์„ค์ •ํ•˜๋Š๋ƒ์— ๋”ฐ๋ผ ๋ชจ๋ธ ์„ฑ๋Šฅ(Score)๊ฐ€ ๋‹ฌ๋ผ์ง„๋‹ค.
Grid Search
์ •ํ•ด์ง„ ๋ฒ”์œ„์—์„œ Hyperparameter๋ฅผ ๋ชจ๋‘ ์ˆœํšŒํ•˜๋ฉฐ ๊ฐ€์žฅ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ด๋Š” ๊ฐ’์„ ์ฐพ๋Š” ๊ธฐ๋ฒ•
Random Search
์ •ํ•ด์ง„ ๋ฒ”์œ„์—์„œ Hyperparameter๋ฅผ ๋ฌด์ž‘์œ„๋กœ ํƒ์ƒ‰ํ•ด ๊ฐ€์žฅ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ด๋Š” ๊ฐ’์„ ์ฐพ๋Š” ๊ธฐ๋ฒ•
Bayesian Optimization
์‚ฌ์ „ ์ •๋ณด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ตœ์  Hyperparameter ๊ฐ’์„ ํ™•๋ฅ ์ ์œผ๋กœ ์ถ”์ •ํ•˜๋ฉฐ ํƒ์ƒ‰ํ•˜๋Š” ๊ธฐ๋ฒ•

Session 3. ์ถ”์ฒœ์‹œ์Šคํ…œ

์ถ”์ฒœ์‹œ์Šคํ…œ์˜ ๋“ฑ์žฅ ๋ฐฐ๊ฒฝ๊ณผ ๊ด€๋ จ ๊ธฐ์ˆ ์˜ ๋ฐœ์ „์„ ์‚ดํ”ผ๊ณ , ๋‚ด์šฉ ๊ธฐ๋ฐ˜ ํ•„ํ„ฐ๋ง๊ณผ ํ˜‘์—… ํ•„ํ„ฐ๋ง์˜ ์›๋ฆฌ๋ฅผ ์ดํ•ดํ•ฉ๋‹ˆ๋‹ค. ๋‚ด์šฉ ๊ธฐ๋ฐ˜ ํ•„ํ„ฐ๋ง๊ณผ ๊ด€๋ จํ•˜์—ฌ ์ƒํ’ˆ(์•„์ดํ…œ)์— ๋Œ€ํ•œ ๋ฒกํ„ฐ ์—ฐ์‚ฐ์„ ์‹ค์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. ํ˜‘์—… ํ•„ํ„ฐ๋ง๊ณผ ๊ด€๋ จํ•˜์—ฌ, ๋ฉ”๋ชจ๋ฆฌ ๊ธฐ๋ฐ˜๊ณผ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๋ฐฉ์‹์„ ํ•™์Šตํ•˜๊ณ , ๊ฐ ๋ฐฉ์‹์— ๋Œ€ํ•œ ์œ ์‚ฌ๋„, ํ–‰๋ ฌ ์—ฐ์‚ฐ์„ ์‹ค์Šตํ–ˆ์Šต๋‹ˆ๋‹ค.
๋ชจ๋ธ ๊ธฐ๋ฐ˜ ํ•„ํ„ฐ๋ง๊ณผ ๊ด€๋ จํ•˜์—ฌ, ํด๋Ÿฌ์Šคํ„ฐ๋ง, ํ† ํ”ฝ ๋ชจ๋ธ, ํ–‰๋ ฌ ๋ถ„ํ•ด ๋ชจ๋ธ์„ ์‚ดํŽด๋ณด๊ณ  ์ถ”์ฒœ ๋ชจ๋ธ์˜ ํ‰๊ฐ€ ์ง€ํ‘œ๋ฅผ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค.
์—ฐ๋Œ€๋ณ„ ์ถ”์ฒœ์‹œ์Šคํ…œ์— ์‚ฌ์šฉ๋œ ๋Œ€ํ‘œ์ ์ธ ๊ธฐ์ˆ 
์ถ”์ฒœ์‹œ์Šคํ…œ์˜ ๋ถ„๋ฅ˜

๋‚ด์šฉ(์ฝ˜ํ…์ธ ) ๊ธฐ๋ฐ˜ ํ•„ํ„ฐ๋ง

โ€ข
์ฑ…์˜ ์ œ๋ชฉ์ด๋‚˜ ์ €์ž, ์žฅ๋ฅด ๋“ฑ๊ณผ ๊ฐ™์ด ์•„์ดํ…œ์˜ ๋‚ด์šฉ์„ ๋‚˜ํƒ€๋‚ด๋Š” ์ •๋ณด๋ฅผ ์‚ฌ์šฉ
โ€ข
์‚ฌ์šฉ์ž๊ฐ€ ์„ ํ˜ธํ•˜๋Š” ์ •๋ณด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‚ด์šฉ์ด ๋น„์Šทํ•œ ์•„์ดํ…œ์„ ๊ณ„์‚ฐํ•จ์œผ๋กœ์จ ์ถ”์ฒœ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜

ํ˜‘์—…(ํ˜‘์กฐ) ํ•„ํ„ฐ๋ง

โ€ข
์„œ๋น„์Šค ๋‚ด์— ์žˆ๋Š” ๋‹ค๋ฅธ ์‚ฌ์šฉ์ž์˜ ๊ณผ๊ฑฐ ํ–‰๋™ ๋“ฑ์„ ํ†ตํ•ด ์–ป์–ด์ง„ ๊ธฐํ˜ธ ๊ฒฝํ–ฅ์„ ํ™œ์šฉํ•˜๋Š” ์ถ”์ฒœ ์•Œ๊ณ ๋ฆฌ์ฆ˜.
ํŠน์ด๊ฐ’ ๋ถ„ํ•ด

Session 4. ๋”ฅ๋Ÿฌ๋‹

์ธ๊ณต์ง€๋Šฅ(AI), ๋จธ์‹ ๋Ÿฌ๋‹, ๋”ฅ๋Ÿฌ๋‹์˜ ๊ฐœ๋…์„ ์‚ดํ”ผ๊ณ  ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์ž๊ฐ€ํ•™์Šต ํ•˜๋Š” ๋”ฅ๋Ÿฌ๋‹์— ๋Œ€ํ•ด ๊ณต๋ถ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ธ๊ณต์‹ ๊ฒฝ๋ง(Artificial Neural Network, ANN) ๋ชจ๋ธ ๋‚ด ์˜์‚ฌ๊ฒฐ์ • ์›๋ฆฌ๋ฅผ ์‚ดํ”ผ๊ณ  ํผ์…‰ํŠธ๋ก ์˜ ๊ตฌ์กฐ์™€ ๋‹ค์ธตํ™”์™€ ์‹ ๊ฒฝ๋ง์œผ๋กœ์˜ ์—ฐ๊ฒฐ, ๊ตฌ์ฒด์ ์ธ ์‹ ๊ฒฝ๋ง ํ•™์Šต ๋ชจ๋ธ์„ ๋‹ค๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค.
๋จธ์‹ ๋Ÿฌ๋‹
๋”ฅ๋Ÿฌ๋‹
ํŠน์ง•
1. ์‚ฌ๋žŒ์ด ํŠน์ง•์„ ์ถ”์ถœํ•˜๊ณ , ํŠน์ • ํŒจํ„ด์„ ์ถ”์ถœํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ปดํ“จํ„ฐ์—๊ฒŒ ์ง€์‹œ 2. ์ปดํ“จํ„ฐ๊ฐ€ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šต (์‚ฌ๋žŒ์ด ์ง€์‹œํ•œ ํŒจํ„ด์— ๊ธฐ๋ฐ˜ํ•ด์„œ ์ปดํ“จํ„ฐ๊ฐ€ ์Šค์Šค๋กœ ๋ฐ์ดํ„ฐ์˜ ํŠน์ง•์„ ๋ถ„์„ํ•˜๊ณ  ์ถ•์ )
1. ์ปดํ“จํ„ฐ๊ฐ€ ์ •ํ•ด์ง„ ์‹ ๊ฒฝ๋ง์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์Šค์Šค๋กœ ํŠน์ง• ์ถ”์ถœยท๋ถ„๋ฅ˜ ์ž‘์—… ์ˆ˜ํ–‰ (์‚ฌ๋žŒ์ด ํ•˜๋˜ ํŒจํ„ด ์ถ”์ถœ ์ž‘์—… ์ƒ๋žต) 2. ์ปดํ“จํ„ฐ๊ฐ€ ๋ฐ์ดํ„ฐ ํ•™์Šต
๋ฐ์ดํ„ฐ
์ฃผ๋กœ ์ •ํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃธ
์ฃผ๋กœ ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃธ
๋ชจ๋ธ
๊ฐ์ข… ํšŒ๊ท€๋ถ„์„, Decision Tree
CNN, RNN
(์ขŒ) ์šฐ๋ฆฌ ๋‡Œ์˜ ์‹ ๊ฒฝ(๋‰ด๋Ÿฐ) vs (์šฐ) ์ธ๊ณต์‹ ๊ฒฝ
์€๋‹‰์ธต๊ณผ ์—ญ์ „
์—ญ์ „ํŒŒ์™€ chain rule
CNN๊ณผ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ ์—ฐ์‚ฐ
์ดํ›„, ๊ณ ์ • ์ž…๋ ฅํฌ๊ธฐ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ํ•ฉ์„ฑ๊ณฑ pooling ๊ณ„์ธต ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๋Š” CNN, ํฌ๊ธฐ์— ๊ฐ€๋ณ€์„ฑ์ด ์žˆ๋Š” ์ˆœ์ฐจ์  ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์ด์ „ ์‹œ์ ์˜ ์ถœ๋ ฅ์„ ๊ณ ๋ คํ•˜์—ฌ ๊ธฐ์–ต๊ณผ ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๋Š” RNN์„ ๋น„๊ตํ•˜๊ณ , ์ˆ˜ํ–‰ํ•˜๊ณ ์ž ํ•˜๋Š” task์™€ ๋ฐ์ดํ„ฐ์˜ ์ข…๋ฅ˜์— ๋”ฐ๋ผ ์ ํ•ฉํ•  DL ๋ชจ๋ธ์„ ๋…ผ์˜ํ•˜๊ณ , ๊ตฌ์ฒด์ ์ธ ์›๋ฆฌ์™€ ์šฉ๋ก€๋ฅผ ๋น„๊ตํ•˜๋ฉฐ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค.
RNN์˜ ์€๋‹‰์ธต๊ณผ ํ’ˆ์‚ฌ ํƒœ๊น…

Session 5. ๊ตฐ์ง‘ํ™”

๊ตฐ์ง‘ํ™”์˜ ๋ชฉํ‘œ์™€ ํŠน์ง•๋ฅผ ์‚ดํŽด๋ณด๊ณ  ๊ณ„์ธต์  ๊ตฐ์ง‘ํ™”์™€ ๋น„๊ณ„์ธต์  ๊ตฐ์ง‘ํ™”์˜ ๊ตฌ๋ถ„์— ๋Œ€ํ•˜์—ฌ ํ•™์Šตํ•˜์˜€์Šต๋‹ˆ๋‹ค.
๊ณ„์ธต์  ๊ตฐ์ง‘ํ™”์™€ ๋น„๊ณ„์ธต์  ๊ตฐ์ง‘ํ™”์˜ ๊ฐœ๋…๊ณผ ๋ถ„์„ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ๊ตฌ์ฒด์ ์œผ๋กœ ์‚ดํŽด๋ณด๊ณ  ๊ฐ ๊ตฐ์ง‘ํ™”์— ์†ํ•˜๋Š” ๊ตฐ์ง‘ํ™” ๋ฐฉ๋ฒ•๋ก ์„ ๊ณต๋ถ€ํ–ˆ์Šต๋‹ˆ๋‹ค.
๊ณ„์ธต์  ๊ตฐ์ง‘ํ™”
๋น„๊ณ„์ธต์  ๊ตฐ์ง‘ํ™”
๋ฐฉ๋ฒ•๋ก 
์‘์ง‘๋ฒ•, ๋ถ„ํ• ๋ฒ•
K-means, GMM, DBSCAN
์žฅ์ 
๋ฐ์ดํ„ฐ๊ฐ€ ์ˆ˜์˜ ์ ์€ ๊ฒฝ์šฐ ์•ˆ์ •์ ์œผ๋กœ ์‚ฌ์šฉ
๊ณ„์†์ ์œผ๋กœ ๊ตฐ์ง‘์„ ์žฌ๊ตฌ์„ฑ&ํ• ๋‹น ๋ฐ์ดํ„ฐ์˜ ์ˆ˜๊ฐ€ ๋งŽ์„ ๊ฒฝ์šฐ ์œ ์šฉ
๋‹จ์ 
ํ•œ ๋ฒˆ ํ˜•์„ฑ๋œ ๊ตฐ์ง‘์€ ๋‹ค์‹œ ํŒ๋ณ„ํ•˜์ง€ ์•Š์Œ
์ดˆ๊ธฐ ๊ตฐ์ง‘์˜ ์˜ํ–ฅ์„ ํฌ๊ฒŒ ๋ฐ›์•„ ๋ถˆ์•ˆ์ •ํ•œ ๊ตฐ์ง‘์„ ์ œ๊ณตํ•  ๊ฐ€๋Šฅ์„ฑ
์—ญ์ „ํŒŒ์™€ chain rule
๊ตฐ์ง‘ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์•˜์Šต๋‹ˆ๋‹ค. ์™ธ๋ถ€ํ‰๊ฐ€๋Š” ์ด๋ฏธ ์ •ํ•ด์ง„ ์ •๋‹ต์„ ๊ธฐ์ค€์œผ๋กœ ๊ตฐ์ง‘ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ •ํ™•๋„๋ฅผ ์ธก์ •ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์„ฑ๋Šฅ์„ ๊ฒ€์ฆํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋Š” ๋ฐ˜๋ฉด, ๋‚ด๋ถ€ํ‰๊ฐ€๋Š” ์ •๋‹ต ์—†์ด ๊ตฐ์ง‘ ๋‚ด ๋ฐ์ดํ„ฐ์˜ ์‘์ง‘์„ฑ๊ณผ ๊ตฐ์ง‘ ๊ฐ„์˜ ๋ถ„๋ฆฌ๋„๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, ์ฃผ๋กœ Dunn Index๋‚˜ Silhouette ๊ณ„์ˆ˜์™€ ๊ฐ™์€ ์ง€ํ‘œ๋ฅผ ํ†ตํ•ด ์ด๋ค„์ง„๋‹ค๋Š” ์ ์„ ์‚ดํŽด๋ณด์•˜์Šต๋‹ˆ๋‹ค.

Session 6. ์ž์—ฐ์–ธ์–ด์ฒ˜๋ฆฌ(Natural Language Processing)

์ž์—ฐ์–ธ์–ด์ฒ˜๋ฆฌ์˜ ๊ฐœ๋…๊ณผ ํ…์ŠคํŠธ ์ „์ฒ˜๋ฆฌ, ํ”ผ์ฒ˜ ๋ฒกํ„ฐํ™”, ์ฃผ์š” ์–ธ์–ด๋ชจ๋ธ๊ณผ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๋ฒกํ„ฐ์—ฐ์‚ฐ์„ ์‚ดํŽด๋ณด์•˜์Šต๋‹ˆ๋‹ค. ์ง์ ‘ ํ…์ŠคํŠธ๋ฐ์ดํ„ฐ์˜ ์ „์ฒ˜๋ฆฌ๋ฅผ ํ•˜๊ณ , KoNLPy ํŒจํ‚ค์ง€๋ฅผ ์‚ฌ์šฉํ•ด ํ˜•ํƒœ์†Œ ๋ถ„์„์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์‹ค์Šต์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ „ํ†ต์  ๋ฐฉ๋ฒ•์ธ BoW(Bag-of-Words)๋กœ๋ถ€ํ„ฐ TF-IDF(Term Frequency-Inverse Document Frequency) ๊นŒ์ง€์˜ ๊ฐœ์„ ์‚ฌํ•ญ์„ ์‚ดํ”ผ๊ณ , ์ตœ์‹ ์˜ ์ธ๊ณต์‹ ๊ฒฝ๋ง์„ ์‚ฌ์šฉํ•˜๋Š” Word2Vec์ด ์˜๋ฏธ๋ก ์  ๊ด€๊ณ„๋ฅผ ๋ฐ˜์˜ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ ๋ฐฐ๊ฒฝ๊นŒ์ง€ NLP ๋ชจ๋ธ์˜ ๋ฐœ์ „๊ณผ์ •๊ณผ ๊ธฐ๋ฐ˜ ์›๋ฆฌ๋ฅผ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค.
LSTM : ์€๋‹‰์ธต์˜ ์…€์— ์ž…์ถœ๋ ฅ ๊ฒŒ์ดํŠธ์™€ ๋ง๊ฐ ๊ฒŒ์ดํŠธ๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ๊ธฐ์–ต์— ๋Œ€ํ•œ ์—ฐ์‚ฐ์„ ๊ฐœ์„ ํ•˜์—ฌ RNN์˜ ๋‹จ์ ์„ ๊ฐœ์„ ํ•œ ๋ชจ๋ธ.
Word2Vec๋ฅผ ํ™œ์šฉํ•ด, ๋‹จ์–ด ๊ฐ„์˜ ์˜๋ฏธ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•œ ์˜ˆ.
์ฃผ๋ณ€๋‹จ์–ด๋กœ๋ถ€ํ„ฐ ์ค‘์‹ฌ๋‹จ์–ด๋ฅผ ํ•™์Šต/์˜ˆ์ธกํ•˜๋Š”, Word2Vec-CBOW.
์ค‘์‹ฌ๋‹จ์–ด๋กœ๋ถ€ํ„ฐ ์ฃผ๋ณ€๋‹จ์–ด๋ฅผ ํ•™์Šต/์˜ˆ์ธกํ•˜๋Š”, Word2Vec-Skip Gram.
๋ฒˆ์—ญ๊ธฐ์— ๋„์ž…๋˜์–ด ์˜จ seq2seq, ๋ฒˆ์—ญ ์„ฑ๋Šฅ์˜ ํ˜์‹ ์„ ์ผ์œผํ‚จ Transformer , ํ…์ŠคํŠธ ์ƒ์„ฑํ˜• AI๋กœ ์ฃผ๋ชฉ ๋ฐ›์œผ๋ฉฐ ๋˜ ํ•œ ๋ฒˆ์˜ ํ˜์‹ ์„ ์ผ์œผํ‚ค๊ณ  ์žˆ๋Š” BERT ๋ชจ๋ธ์˜ ๊ตฌ์„ฑ์„ encoder, decoder ๋‹จ์—์„œ๋ถ€ํ„ฐ ์‚ดํ”ผ์—ˆ์œผ๋ฉฐ ์ถœ๋ ฅ ์‹œํ€€์Šค์˜ ์ •ํ™•๋„๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๋†’์ธ Attention ํ•จ์ˆ˜์˜ ์›๋ฆฌ๋ฅผ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค.
Attention Value ์—ฐ์‚ฐ : ์ถœ๋ ฅ ๋‹จ์–ด ์˜ˆ์ธก์‹œ์ ๋งˆ๋‹ค ์—ฐ๊ด€ ๋‹จ์–ด์— ์ง‘์ค‘ํ•˜๋„๋ก ๊ฐ’์„ ํ• ๋‹นํ•œ๋‹ค.
Attention ๋ถ„ํฌ ์—ฐ์‚ฐ ๋„์‹๊ณผ softmax ํ•จ์ˆ˜ ์‹œ๊ฐํ™”
BERT ๋ชจ๋ธ์—์„œ์˜ self-Attention

Session 7~8. ์‹œ๊ณ„์—ด

์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์˜ ์ •์˜, ์ข…๋ฅ˜, ํ†ต๊ณ„์  ํŠน์„ฑ์„ ์‚ดํ”ผ๊ณ , ํšจ์œจ์ ์ธ EDA๋ฅผ ์œ„ํ•œ ์ฐจ๋ถ„, ๋นˆ๋„, Lag์— ๋Œ€ํ•œ ์ „์ฒ˜๋ฆฌ ๊ธฐ๋ฒ•์„ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ณ€๋™์„ฑ๋ถ„์— ๋Œ€ํ•œ ์š”์†Œ๋ถ„ํ•ด์™€ ํ‰ํ™œํ™”๋ฅผ ์‹ค์Šตํ•˜๊ณ , ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ ๊ฐ„ ์ƒ๊ด€ ๋ถ„์„์— ์“ฐ์ด๋Š” ๋Œ€ํ‘œ์ ์ธ ๊ณ„์ˆ˜์™€ ํ‰ํ™œํ™”/ํ•„ํ„ฐ๋ง EDA๋ฅผ ์‚ดํŽด๋ณด์•˜์Šต๋‹ˆ๋‹ค.
์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์—์„œ์˜ ๋ณ€๋™ : ์ถ”์„ธ, ์ˆœํ™˜, ๊ณ„์ ˆ, ์šฐ์—ฐ
์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋Š”?
(1) ์ž๊ธฐ์ƒ๊ด€์„ฑ(Autocorrelation)
(2) ๋น„์ •์ƒ์„ฑ(Non-stationarity)
(3) ๊ณ„์ ˆ์„ฑ(Seasonality)
์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์™€ ์ฐจ๋ถ„
ํ”ผ์–ด์Šจ ์ƒ๊ด€๊ณ„์ˆ˜
์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์˜ ํ‰ํ™œํ™”
๋‹จ๋ณ€๋Ÿ‰/๋‹ค๋ณ€๋ž‘ ์‹œ๊ณ„์—ด ๋ชจ๋ธ์„ ์‚ดํ”ผ๊ณ , ์ž๊ธฐ์ƒ๊ด€, ์ž๊ธฐํšŒ๊ท€, ์•ˆ์ •์‹œ๊ณ„์—ด์— ๋Œ€ํ•ด ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ณ€๋™์„ฑ์„ ๋‹ค๋ฃจ๋Š” ๋ชจํ˜•๋“ค์˜ ํŠน์ง•๊ณผ ์šฉ๋ก€๋ฅผ ๊ณต๋ถ€ํ•˜๊ณ  ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ๋“ค์— ๋Œ€ํ•ด ๋น„๊ตํ•˜๋ฉฐ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค.
์ž๊ธฐ์ƒ๊ด€ํ•จ์ˆ˜(Auto Correlation Function, ACF)
๋ถ€๋ถ„์ž๊ธฐ์ƒ๊ด€ํ•จ์ˆ˜(Partial ACF, PACF)
๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด ๋ชจ๋ธ : ARCH
LSTM๊ณผ GRU์˜ ๋น„๊ต
๋‹จ๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด ๋ชจ๋ธ : N-Beat