Search

Session

๊ต์œก ์„ธ์…˜

์ธ์‚ฌ์ดํŠธ๋Š” ์ด 7ํšŒ์˜ ๊ต์œก์„ธ์…˜(OT ํฌํ•จ)์„ ํ†ตํ•ด ์‹ ์ž… ๊ธฐ์ˆ˜์˜ ์†Œํ”„ํŠธ๋žœ๋”ฉ์„ ๋„๋ชจํ•˜๊ณ , ํ•™ํšŒ์›๋“ค์˜ ์ฒด๊ณ„์ ์ธ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฐ ๋ชจ๋ธ๋ง์„ ์œ„ํ•œ ๊ธฐ์ดˆ๋ฅผ ๋‹ค์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๊ต์œก ์„ธ์…˜ [ํŒŒ์ด์ฌ]

ํ•™๊ธฐ ์ดˆ์—๋Š” Github์˜ ์‚ฌ์šฉ๋ฒ•๊ณผ Python์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. Pandas๋ฅผ ์œ„์ฃผ๋กœ Python์˜ ๊ธฐ์ดˆ๋ถ€ํ„ฐ ์‹ฌํ™”๊นŒ์ง€, ๊ทธ๋ฆฌ๊ณ  EDA์— ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ๋ฐ ์‹œ๊ฐํ™”๋ฅผ 4๋ฒˆ์˜ ์„ธ์…˜์— ๊ฑธ์ณ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

Session 0 (OT). Jupyter, Github

๋ณธ ์„ธ์…˜์€ ๋ณธ๊ฒฉ์ ์ธ ๊ต์œก ์„ธ์…˜ ์ง„ํ–‰์— ์•ž์„  ์‚ฌ์ „ ํ•™์Šต ๊ณผ์ •์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค. Jupyter Notebook์„ ์„ค์น˜ํ•˜๊ณ  ์ดˆ๊ธฐ ์„ค์ •์„ ์ง„ํ–‰ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ณผ์ œ ์ œ์ถœ ๋ฐ ํฌํŠธํด๋ฆฌ์˜ค ๊ด€๋ฆฌ๋ฅผ ์œ„ํ•œ Github ํ™œ์šฉ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ํ•™์Šตํ•˜์˜€์Šต๋‹ˆ๋‹ค.

Session 1. Pandas

๋ณธ ์„ธ์…˜์—์„œ๋Š” ๊ธฐ๋ณธ์ ์ธ ํŒŒ์ด์ฌ ๋ฌธ๋ฒ•์„ ๋ณต์Šตํ•˜๊ณ , Pandas ๋ฌธ๋ฒ•์„ ์‹ค์ œ ๋ฐ์ดํ„ฐ์— ์ ์šฉํ•ด ๋ณด์•˜์Šต๋‹ˆ๋‹ค.

Session 2. EDA & ์ „์ฒ˜๋ฆฌ

๋ณธ ์„ธ์…˜์—์„œ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๊ณ  ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ EDA์™€ ์ „์ฒ˜๋ฆฌ ๊ณผ์ •์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์•˜์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ฝ๋Š” ๋ฐฉ์‹๊ณผ ์‹œ๊ฐํ™”์˜ ๊ธฐ์ดˆ์ ์ธ ๋‚ด์šฉ์„ ํ•™์Šตํ•˜๊ณ , EDA์˜ ๋Œ€์ƒ๊ณผ ์ข…๋ฅ˜์— ๋”ฐ๋ฅธ EDA ์œ ํ˜•์„ ํŒŒ์•…ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋ชจ๋ธ๋ง์„ ์œ„ํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์†์งˆํ•˜๋Š” ์ „์น˜๋ฆฌ ๊ณผ์ •์„ ์ดํ•ดํ•˜๊ณ , ํŒŒ์ด์ฌ์„ ํ†ตํ•ด ์ „์ฒ˜๋ฆฌ์™€ ์‹œ๊ฐํ™” ๊ณผ์ •์„ ์‹ค์Šตํ•˜์˜€์Šต๋‹ˆ๋‹ค.
4

๊ต์œก ์„ธ์…˜ [ํ†ต๊ณ„]

ํŒŒ์ด์ฌ ๊ต์œก ์„ธ์…˜ ์ดํ›„, ์ด 4ํšŒ์˜ ํ†ต๊ณ„ ์„ธ์…˜(ํ†ต๊ณ„, ํšŒ๊ท€, ๋ถ„๋ฅ˜)์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ๋ถ„์„์˜ ๊ธฐ๋ฐ˜์ด ๋˜๋Š” ๊ธฐ์ดˆ์ ์ธ ํ†ต๊ณ„ ๊ฐœ๋…๊ณผ ๋จธ์‹  ๋Ÿฌ๋‹(ํšŒ๊ท€, ๋ถ„๋ฅ˜)์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์„ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค.

Session 3. ํ†ต๊ณ„

๋ณธ ์„ธ์…˜์—์„œ๋Š” ๊ธฐ์ˆ  ํ†ต๊ณ„์™€ ์ถ”๋ฆฌ ํ†ต๊ณ„, ๋‹ค์–‘ํ•œ ๋ถ„ํฌ๋“ค๊ณผ ๊ฐ€์„ค ๊ฒ€์ •์˜ ์ ˆ์ฐจ ๋ฐ ํ•ด์„ ๋“ฑ ํ†ต๊ณ„์™€ ๊ด€๋ จ๋œ ๋‹ค์–‘ํ•œ ์ด๋ก ์  ๊ธฐ๋ฐ˜์— ๋Œ€ํ•ด ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค.

Session 4. ํšŒ๊ท€ ๊ธฐ์ดˆ

๋ณธ ์„ธ์…˜์—์„œ๋Š” ๋‹จ์ˆœ ์„ ํ˜• ํšŒ๊ท€, ๋‹ค์ค‘ ์„ ํ˜• ํšŒ๊ท€์˜ ์ด๋ก ์  ๊ธฐ๋ฐ˜์— ๋Œ€ํ•ด ํ•™์Šตํ•˜๊ณ  ์‹ค์Šตํ•ด๋ณด๋Š” ์‹œ๊ฐ„์„ ๊ฐ€์กŒ์Šต๋‹ˆ๋‹ค.

Session 5. ํšŒ๊ท€ ์‹ฌํ™”

๋ณธ ์„ธ์…˜์—์„œ๋Š” ๋‹ค์ค‘ ์„ ํ˜• ํšŒ๊ท€์˜ ๊ธฐ๋ณธ ๊ฐ€์ •์„ ๊ฒ€์ •ํ•ด ๋ณด๊ณ  ํšŒ๊ท€ ๋ถ„์„์˜ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์•˜์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋น„์„ ํ˜• ํšŒ๊ท€ ๋ชจ๋ธ์„ ํ•™์Šตํ•œ ๋’ค ์‹ค์ œ ๋ฐ์ดํ„ฐ์— ์ ์šฉํ•ด ๋ณด์•˜์Šต๋‹ˆ๋‹ค.

Session 6. ๋ถ„๋ฅ˜

๋ถ„๋ฅ˜์˜ ๊ฐœ๋…, ์ข…๋ฅ˜, ํ‰๊ฐ€ ์ง€ํ‘œ์— ๋Œ€ํ•ด ์ดํ•ดํ•˜๊ณ  ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์ตœ์ ํ™”๋ฅผ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ฝ”๋“œ๋ฅผ ํ†ตํ•ด ๋ถ„๋ฅ˜ ๋ชจ๋ธ์„ ๊ตฌํ˜„ํ•˜๊ณ  ํ‰๊ฐ€ํ•ด ๋ณด์•˜์Šต๋‹ˆ๋‹ค.
์–ด๋–ค ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ(Hyperparameters)๋ฅผ ์„ค์ •ํ•˜๋А๋ƒ์— ๋”ฐ๋ผ ๋ชจ๋ธ ์„ฑ๋Šฅ(Score)๊ฐ€ ๋‹ฌ๋ผ์ง„๋‹ค.

Session 7. ๊ตฐ์ง‘ํ™”

๊ตฐ์ง‘ํ™”์˜ ๋ชฉํ‘œ์™€ ํŠน์ง•์„ ์‚ดํŽด๋ณด๊ณ  ๊ณ„์ธต์  ๊ตฐ์ง‘ํ™”์™€ ๋น„๊ณ„์ธต์  ๊ตฐ์ง‘ํ™”์˜ ๊ตฌ๋ถ„์— ๋Œ€ํ•ด ํ•™์Šตํ•˜์˜€์Šต๋‹ˆ๋‹ค.
๊ณ„์ธต์  ๊ตฐ์ง‘ํ™”์™€ ๋น„๊ณ„์ธต์  ๊ตฐ์ง‘ํ™”์˜ ๊ฐœ๋…๊ณผ ๋ถ„์„ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ๊ตฌ์ฒด์ ์œผ๋กœ ์‚ดํŽด๋ณด๊ณ  ๊ฐ ๊ตฐ์ง‘ํ™”์— ์†ํ•˜๋Š” ๊ตฐ์ง‘ํ™” ๋ฐฉ๋ฒ•๋ก ์„ ๊ณต๋ถ€ํ–ˆ์Šต๋‹ˆ๋‹ค.
๊ณ„์ธต์  ๊ตฐ์ง‘ํ™”
๋น„๊ณ„์ธต์  ๊ตฐ์ง‘ํ™”
๋ฐฉ๋ฒ•๋ก 
์‘์ง‘๋ฒ•, ๋ถ„ํ• ๋ฒ•
K-means, GMM, DBSCAN
์žฅ์ 
๋ฐ์ดํ„ฐ๊ฐ€ ์ˆ˜์˜ ์ ์€ ๊ฒฝ์šฐ ์•ˆ์ •์ ์œผ๋กœ ์‚ฌ์šฉ
๊ณ„์†์ ์œผ๋กœ ๊ตฐ์ง‘์„ ์žฌ๊ตฌ์„ฑ&ํ• ๋‹น ๋ฐ์ดํ„ฐ์˜ ์ˆ˜๊ฐ€ ๋งŽ์„ ๊ฒฝ์šฐ ์œ ์šฉ
๋‹จ์ 
ํ•œ ๋ฒˆ ํ˜•์„ฑ๋œ ๊ตฐ์ง‘์€ ๋‹ค์‹œ ํŒ๋ณ„ํ•˜์ง€ ์•Š์Œ
์ดˆ๊ธฐ ๊ตฐ์ง‘์˜ ์˜ํ–ฅ์„ ํฌ๊ฒŒ ๋ฐ›์•„ ๋ถˆ์•ˆ์ •ํ•œ ๊ตฐ์ง‘์„ ์ œ๊ณตํ•  ๊ฐ€๋Šฅ์„ฑ
๊ตฐ์ง‘ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์•˜์Šต๋‹ˆ๋‹ค. ์™ธ๋ถ€ํ‰๊ฐ€๋Š” ์ด๋ฏธ ์ •ํ•ด์ง„ ์ •๋‹ต์„ ๊ธฐ์ค€์œผ๋กœ ๊ตฐ์ง‘ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ •ํ™•๋„๋ฅผ ์ธก์ •ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์„ฑ๋Šฅ์„ ๊ฒ€์ฆํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜๋Š” ๋ฐ˜๋ฉด, ๋‚ด๋ถ€ํ‰๊ฐ€๋Š” ์ •๋‹ต ์—†์ด ๊ตฐ์ง‘ ๋‚ด ๋ฐ์ดํ„ฐ์˜ ์‘์ง‘์„ฑ๊ณผ ๊ตฐ์ง‘ ๊ฐ„์˜ ๋ถ„๋ฆฌ๋„๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, ์ฃผ๋กœ Dunn Index๋‚˜ Silhouette ๊ณ„์ˆ˜์™€ ๊ฐ™์€ ์ง€ํ‘œ๋ฅผ ํ†ตํ•ด ์ด๋ค„์ง„๋‹ค๋Š” ์ ์„ ์‚ดํŽด๋ณด์•˜์Šต๋‹ˆ๋‹ค.

์‹ฌํ™” ์„ธ์…˜

๊ต์œก ์„ธ์…˜์„ ๋งˆ์นœ ํ›„์—๋Š” ์‹ฌํ™” ์„ธ์…˜์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ๋ถ„์„๊ณผ ๋จธ์‹ ๋Ÿฌ๋‹ ์‹ฌํ™” ์ฃผ์ œ ์ค‘ ๊ด€์‹ฌ ๋ถ„์•ผ์— ๋”ฐ๋ผ ํŒ€์„ ๊ตฌ์„ฑํ•˜์˜€๊ณ , ๊ฐ ํŒ€์€ ํ•™์Šต ์ž๋ฃŒ์™€ ์‹ค์Šต ๊ณผ์ œ๋ฅผ ์ œ์ž‘ํ•˜์—ฌ ์ฃผ 2ํšŒ ์ •๊ทœ ์„ธ์…˜์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.

Session 1. ์•™์ƒ๋ธ”

๋ณธ ์„ธ์…˜์—์„œ๋Š” ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๊ฐœ๋ณ„ ๋ถ„๋ฅ˜๋ชจ๋ธ๋“ค์„ ๊ฒฐํ•ฉํ•ด ํ•˜๋‚˜์˜ ๋ถ„๋ฅ˜๋ชจ๋ธ๋ณด๋‹ค ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ด๋Š” ์•™์ƒ๋ธ”์— ๋Œ€ํ•ด ๊ณต๋ถ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ข…๋ฅ˜์— ๋”ฐ๋ผ ๋ณดํŒ…(Voting), ๋ฐฐ๊น…(Bagging), ๋ถ€์ŠคํŒ…(Boosting), ์Šคํƒœํ‚น(Stacking)์„ ๊ตฌ๋ถ„ํ•˜์˜€๊ณ , Random Forest, XGBoost, LightGBM ๋“ฑ์˜ ๋ชจ๋ธ๋“ค์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์•˜์Šต๋‹ˆ๋‹ค.
์•™์ƒ๋ธ” ๊ตฌ์กฐ๋„
๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ์˜ ํ”„๋กœ์„ธ์Šค
LightGBM ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์†Œ๊ฐœ
์Šคํƒœํ‚น ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์•Œ์•„๋ณด๊ณ , K ํด๋“œ ๊ต์ฐจ๊ฒ€์ฆ์„ ํ†ตํ•ด ํ•™์Šต๊ณผ ๊ฒ€์ฆ์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฒ•์„ ์•Œ์•„๋ณด์•˜์Šต๋‹ˆ๋‹ค.
์Šคํƒœํ‚น ์•Œ๊ณ ๋ฆฌ์ฆ˜
K ํด๋“œ ๊ต์ฐจ๊ฒ€์ฆ
์•™์ƒ๋ธ”์„ ํฌํ•จํ•œ ๋ณต์žกํ•œ ๋ชจ๋ธ์˜ ๊ตฌ์กฐ์ ์ธ ๋ฌธ์ œ์ธ ๋ธ”๋ž™๋ฐ•์Šค ๋ฌธ์ œ์™€, ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ LIME ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์•˜์Šต๋‹ˆ๋‹ค.
LIME ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ†ตํ•œ ๋ธ”๋ž™๋ฐ•์Šค ํ•ด์„ ํ”„๋กœ์„ธ์Šค

Session 2. ์ถ”์ฒœ์‹œ์Šคํ…œ

์ถ”์ฒœ์‹œ์Šคํ…œ์˜ ๋“ฑ์žฅ ๋ฐฐ๊ฒฝ๊ณผ ๊ด€๋ จ ๊ธฐ์ˆ ์˜ ๋ฐœ์ „์„ ์‚ดํ”ผ๊ณ , ๋‚ด์šฉ ๊ธฐ๋ฐ˜ ํ•„ํ„ฐ๋ง๊ณผ ํ˜‘์—… ํ•„ํ„ฐ๋ง์˜ ์›๋ฆฌ๋ฅผ ์ดํ•ดํ•ฉ๋‹ˆ๋‹ค. ๋‚ด์šฉ ๊ธฐ๋ฐ˜ ํ•„ํ„ฐ๋ง๊ณผ ๊ด€๋ จํ•˜์—ฌ ์ƒํ’ˆ(์•„์ดํ…œ)์— ๋Œ€ํ•œ ๋ฒกํ„ฐ ์—ฐ์‚ฐ์„ ์‹ค์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. ํ˜‘์—… ํ•„ํ„ฐ๋ง๊ณผ ๊ด€๋ จํ•˜์—ฌ, ๋ฉ”๋ชจ๋ฆฌ ๊ธฐ๋ฐ˜๊ณผ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ๋ฐฉ์‹์„ ํ•™์Šตํ•˜๊ณ , ๊ฐ ๋ฐฉ์‹์— ๋Œ€ํ•œ ์œ ์‚ฌ๋„, ํ–‰๋ ฌ ์—ฐ์‚ฐ์„ ์‹ค์Šตํ–ˆ์Šต๋‹ˆ๋‹ค.
๋ชจ๋ธ ๊ธฐ๋ฐ˜ ํ•„ํ„ฐ๋ง๊ณผ ๊ด€๋ จํ•˜์—ฌ, ํด๋Ÿฌ์Šคํ„ฐ๋ง, ํ† ํ”ฝ ๋ชจ๋ธ, ํ–‰๋ ฌ ๋ถ„ํ•ด ๋ชจ๋ธ์„ ์‚ดํŽด๋ณด๊ณ  ์ถ”์ฒœ ๋ชจ๋ธ์˜ ํ‰๊ฐ€ ์ง€ํ‘œ๋ฅผ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค.
์—ฐ๋Œ€๋ณ„ ์ถ”์ฒœ์‹œ์Šคํ…œ์— ์‚ฌ์šฉ๋œ ๋Œ€ํ‘œ์ ์ธ ๊ธฐ์ˆ 
์ถ”์ฒœ์‹œ์Šคํ…œ์˜ ๋ถ„๋ฅ˜

๋‚ด์šฉ(์ฝ˜ํ…์ธ ) ๊ธฐ๋ฐ˜ ํ•„ํ„ฐ๋ง

โ€ข
์ฑ…์˜ ์ œ๋ชฉ์ด๋‚˜ ์ €์ž, ์žฅ๋ฅด ๋“ฑ๊ณผ ๊ฐ™์ด ์•„์ดํ…œ์˜ ๋‚ด์šฉ์„ ๋‚˜ํƒ€๋‚ด๋Š” ์ •๋ณด๋ฅผ ์‚ฌ์šฉ
โ€ข
์‚ฌ์šฉ์ž๊ฐ€ ์„ ํ˜ธํ•˜๋Š” ์ •๋ณด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‚ด์šฉ์ด ๋น„์Šทํ•œ ์•„์ดํ…œ์„ ๊ณ„์‚ฐํ•จ์œผ๋กœ์จ ์ถ”์ฒœ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜

ํ˜‘์—…(ํ˜‘์กฐ) ํ•„ํ„ฐ๋ง

โ€ข
์„œ๋น„์Šค ๋‚ด์— ์žˆ๋Š” ๋‹ค๋ฅธ ์‚ฌ์šฉ์ž์˜ ๊ณผ๊ฑฐ ํ–‰๋™ ๋“ฑ์„ ํ†ตํ•ด ์–ป์–ด์ง„ ๊ธฐํ˜ธ ๊ฒฝํ–ฅ์„ ํ™œ์šฉํ•˜๋Š” ์ถ”์ฒœ ์•Œ๊ณ ๋ฆฌ์ฆ˜.
ํŠน์ด๊ฐ’ ๋ถ„ํ•ด

Session 3. ์—ฐ๊ด€๋ถ„์„

์œ ํ†ต์—…๊ณ„์—์„œ โ€œ์žฅ๋ฐ”๊ตฌ๋‹ˆ ๋ถ„์„โ€์ด๋ผ๊ณ ๋„ ๋ถ€๋ฅด๋Š” ์—ฐ๊ด€ ๋ถ„์„์— ๋Œ€ํ•ด ๊ณต๋ถ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ฃผ์š” ๊ฐœ๋…์„ ์ดํ•ดํ•˜๊ณ , ์ดํ›„ Apriori, FP-Growth ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๋น„๊ตํ•˜๋ฉฐ ์•Œ์•„๋ณด์•˜์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ด์ „ ์„ธ์…˜์˜ ๋‚ด์šฉ์ด์—ˆ๋˜ ํ˜‘์—… ํ•„ํ„ฐ๋ง๊ณผ ๋น„๊ตํ•ด๋ณด์•˜์Šต๋‹ˆ๋‹ค.
Apripori ์•Œ๊ณ ๋ฆฌ์ฆ˜
FP-Growth ์•Œ๊ณ ๋ฆฌ์ฆ˜
ํ˜์—… ํ•„ํ„ฐ๋ง vs ์—ฐ๊ด€๋ถ„์„
๊ตฌ๋ถ„
์ƒํ’ˆ๊ธฐ๋ฐ˜ ํ˜‘์—… ํ•„ํ„ฐ๋ง
์—ฐ๊ด€๋ถ„์„(์žฅ๋ฐ”๊ตฌ๋‹ˆ ๋ถ„์„)
์—ฐ์‚ฐ ๋ฐฉ์‹
์ƒ๊ด€๊ด€๊ณ„ ๊ธฐ๋ฐ˜(๊ฐ™์€ ๋ฐฉํ–ฅ์œผ๋กœ ์ฆ๊ฐํ•˜๋Š” ๊ฐ•๋„)
๊ต์ง‘ํ•ฉ ๊ธฐ๋ฐ˜(์žฅ๋ฐ”๊ตฌ๋‹ˆ์— ๊ฐ™์ด ๋‹ด๊ฒจ์žˆ๋Š” ๋น„์œจ)
์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ตฌ์กฐ
์ƒํ’ˆ๋งˆ๋‹ค ํƒ€ ์ƒํ’ˆ๊ณผ 1:1 ๊ณ„์‚ฐ(ํŠน์ •์ƒํ’ˆ์˜ ๊ตฌ๋งค๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฅธ ์ƒํ’ˆ์˜ ๊ตฌ๋งค๋ฐ์ดํ„ฐ์™€ ๋น„๊ต)
์ƒํ’ˆ๋งˆ๋‹ค ์ฃผ๋ฌธ๋‚ด์—ญ์„ 1:n ๊ณ„์‚ฐ(ํŠน์ •์ƒํ’ˆ์ด ํฌํ•จ๋œ ๊ตฌ๋งค๋ฐ์ดํ„ฐ์—์„œ ๋‹ค๋ฅธ ์ƒํ’ˆ์˜ ๋น„์œจ์„ ๊ณ„์‚ฐ)
ํŠน์ง•
์‚ฌ์šฉ์ž์˜ ๊ฐœ์ธ ์„ ํ˜ธ๋„(ํ‰๊ฐ€์ ์ˆ˜, ๊ตฌ๋งคํšŸ์ˆ˜ ๋“ฑ)์— ๋”ฐ๋ผ ์„ ํ˜ธ ์ƒํ’ˆ ์ถ”์ถœ ๊ฐ€๋Šฅ
์ƒํ’ˆ๊ณผ ์—ฐ๊ด€์„ฑ์ด ๋†’์€ 1๊ฐœ์ด์ƒ์˜ ์ƒํ’ˆ์„ ์„ธํŠธ๋กœ ์ถ”์ถœ ๊ฐ€๋Šฅ
์ถ”์ฒœ ๋ฐฉ์‹
ํƒ€ ์ƒํ’ˆ์˜ ์œ ์‚ฌ๋„ ์ˆœ์œ„๋Œ€๋กœ ๋…ธ์ถœ
์—ฐ๊ด€์ง€ํ‘œ๊ฐ€ ๋†’์€ ์„ธํŠธ์ƒํ’ˆ(1๊ฐœ์ด์ƒ) ๋…ธ์ถœ
์‹ค๋ฌด์—์„œ ๋งŽ์ด ํ™œ์šฉ๋˜๋Š” ๊ธฐ๋ฒ•์ธ ๋งŒํผ ์‹ค์ œ ํ™œ์šฉ์‚ฌ๋ก€๋ฅผ ์•Œ์•„๋ณด์•˜์Šต๋‹ˆ๋‹ค. ์†Œ๋งค, ์˜๋ฃŒ, ๊ธˆ์œต, ์›น, ๋ฒ ์ด์ปค๋ฆฌ ๋“ฑ์˜ ๋„๋ฉ”์ธ์˜ ์ˆ˜์น˜๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ „๋žต์„ ์ œ์•ˆํ•ด๋ณด๊ณ , ์‹ค์ œ ๋„ทํ”Œ๋ฆญ์Šค์—์„œ ์‚ฌ์šฉ๋œ ์—ฐ๊ด€๋ถ„์„์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์•˜์Šต๋‹ˆ๋‹ค.
๋ฒ ์ด์ปค๋ฆฌ ์ปจ์„คํŒ… ์˜ˆ์ œ. ์œ„์˜ ํ‘œ๋ฅผ ํ†ตํ•ด ๋‚˜๋ฆ„์˜ ์ „๋žต์„ ์ œ์•ˆํ•ด๋ณด์ž!

Session 4~5. ๋”ฅ๋Ÿฌ๋‹

์ธ๊ณต์ง€๋Šฅ(AI), ๋จธ์‹ ๋Ÿฌ๋‹, ๋”ฅ๋Ÿฌ๋‹์˜ ๊ฐœ๋…์„ ์‚ดํ”ผ๊ณ  ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์ž๊ฐ€ํ•™์Šต ํ•˜๋Š” ๋”ฅ๋Ÿฌ๋‹์— ๋Œ€ํ•ด ๊ณต๋ถ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ธ๊ณต์‹ ๊ฒฝ๋ง(Artificial Neural Network, ANN) ๋ชจ๋ธ ๋‚ด ์˜์‚ฌ๊ฒฐ์ • ์›๋ฆฌ๋ฅผ ์‚ดํ”ผ๊ณ  ํผ์…‰ํŠธ๋ก ์˜ ๊ตฌ์กฐ์™€ ๋‹ค์ธตํ™”์™€ ์‹ ๊ฒฝ๋ง์œผ๋กœ์˜ ์—ฐ๊ฒฐ, ๊ตฌ์ฒด์ ์ธ ์‹ ๊ฒฝ๋ง ํ•™์Šต ๋ชจ๋ธ์„ ๋‹ค๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค.
๋จธ์‹ ๋Ÿฌ๋‹
๋”ฅ๋Ÿฌ๋‹
ํŠน์ง•
1. ์‚ฌ๋žŒ์ด ํŠน์ง•์„ ์ถ”์ถœํ•˜๊ณ , ํŠน์ • ํŒจํ„ด์„ ์ถ”์ถœํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ปดํ“จํ„ฐ์—๊ฒŒ ์ง€์‹œ 2. ์ปดํ“จํ„ฐ๊ฐ€ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šต (์‚ฌ๋žŒ์ด ์ง€์‹œํ•œ ํŒจํ„ด์— ๊ธฐ๋ฐ˜ํ•ด์„œ ์ปดํ“จํ„ฐ๊ฐ€ ์Šค์Šค๋กœ ๋ฐ์ดํ„ฐ์˜ ํŠน์ง•์„ ๋ถ„์„ํ•˜๊ณ  ์ถ•์ )
1. ์ปดํ“จํ„ฐ๊ฐ€ ์ •ํ•ด์ง„ ์‹ ๊ฒฝ๋ง์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์Šค์Šค๋กœ ํŠน์ง• ์ถ”์ถœยท๋ถ„๋ฅ˜ ์ž‘์—… ์ˆ˜ํ–‰ (์‚ฌ๋žŒ์ด ํ•˜๋˜ ํŒจํ„ด ์ถ”์ถœ ์ž‘์—… ์ƒ๋žต) 2. ์ปดํ“จํ„ฐ๊ฐ€ ๋ฐ์ดํ„ฐ ํ•™์Šต
๋ฐ์ดํ„ฐ
์ฃผ๋กœ ์ •ํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃธ
์ฃผ๋กœ ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃธ
๋ชจ๋ธ
๊ฐ์ข… ํšŒ๊ท€๋ถ„์„, Decision Tree
CNN, RNN
(์ขŒ) ์šฐ๋ฆฌ ๋‡Œ์˜ ์‹ ๊ฒฝ(๋‰ด๋Ÿฐ) vs (์šฐ) ์ธ๊ณต์‹ ๊ฒฝ
์€๋‹‰์ธต๊ณผ ์—ญ์ „
์—ญ์ „ํŒŒ์™€ chain rule
CNN์˜ ์—ฐ์‚ฐ ๊ณผ์ •
์ดํ›„, ๊ณ ์ • ์ž…๋ ฅํฌ๊ธฐ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ํ•ฉ์„ฑ๊ณฑ pooling ๊ณ„์ธต ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๋Š” CNN, ํฌ๊ธฐ์— ๊ฐ€๋ณ€์„ฑ์ด ์žˆ๋Š” ์ˆœ์ฐจ์  ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์ด์ „ ์‹œ์ ์˜ ์ถœ๋ ฅ์„ ๊ณ ๋ คํ•˜์—ฌ ๊ธฐ์–ต๊ณผ ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๋Š” RNN์„ ๋น„๊ตํ•˜๊ณ , ์ˆ˜ํ–‰ํ•˜๊ณ ์ž ํ•˜๋Š” task์™€ ๋ฐ์ดํ„ฐ์˜ ์ข…๋ฅ˜์— ๋”ฐ๋ผ ์ ํ•ฉํ•  DL ๋ชจ๋ธ์„ ๋…ผ์˜ํ•˜๊ณ , ๊ตฌ์ฒด์ ์ธ ์›๋ฆฌ์™€ ์šฉ๋ก€๋ฅผ ๋น„๊ตํ•˜๋ฉฐ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค.
RNN์˜ ์€๋‹‰์ธต๊ณผ ํ’ˆ์‚ฌ ํƒœ๊น…

Session 6~7. ์ž์—ฐ์–ด์ฒ˜๋ฆฌ(Natural Language Processing)

์ž์—ฐ์–ธ์–ด์ฒ˜๋ฆฌ์˜ ๊ฐœ๋…๊ณผ ํ…์ŠคํŠธ ์ „์ฒ˜๋ฆฌ, ํ”ผ์ฒ˜ ๋ฒกํ„ฐํ™”, ์ฃผ์š” ์–ธ์–ด๋ชจ๋ธ๊ณผ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๋ฒกํ„ฐ์—ฐ์‚ฐ์„ ์‚ดํŽด๋ณด์•˜์Šต๋‹ˆ๋‹ค. ์ง์ ‘ ํ…์ŠคํŠธ๋ฐ์ดํ„ฐ์˜ ์ „์ฒ˜๋ฆฌ๋ฅผ ํ•˜๊ณ , KoNLPy ํŒจํ‚ค์ง€๋ฅผ ์‚ฌ์šฉํ•ด ํ˜•ํƒœ์†Œ ๋ถ„์„์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์‹ค์Šต์„ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ „ํ†ต์  ๋ฐฉ๋ฒ•์ธ BoW(Bag-of-Words)๋กœ๋ถ€ํ„ฐ TF-IDF(Term Frequency-Inverse Document Frequency) ๊นŒ์ง€์˜ ๊ฐœ์„ ์‚ฌํ•ญ์„ ์‚ดํ”ผ๊ณ , ์ตœ์‹ ์˜ ์ธ๊ณต์‹ ๊ฒฝ๋ง์„ ์‚ฌ์šฉํ•˜๋Š” Word2Vec์ด ์˜๋ฏธ๋ก ์  ๊ด€๊ณ„๋ฅผ ๋ฐ˜์˜ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ ๋ฐฐ๊ฒฝ๊นŒ์ง€ NLP ๋ชจ๋ธ์˜ ๋ฐœ์ „๊ณผ์ •๊ณผ ๊ธฐ๋ฐ˜ ์›๋ฆฌ๋ฅผ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค.
LSTM : ์€๋‹‰์ธต์˜ ์…€์— ์ž…์ถœ๋ ฅ ๊ฒŒ์ดํŠธ์™€ ๋ง๊ฐ ๊ฒŒ์ดํŠธ๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ๊ธฐ์–ต์— ๋Œ€ํ•œ ์—ฐ์‚ฐ์„ ๊ฐœ์„ ํ•˜์—ฌ RNN์˜ ๋‹จ์ ์„ ๊ฐœ์„ ํ•œ ๋ชจ๋ธ.
Word2Vec๋ฅผ ํ™œ์šฉํ•ด, ๋‹จ์–ด ๊ฐ„์˜ ์˜๋ฏธ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•œ ์˜ˆ.
์ฃผ๋ณ€๋‹จ์–ด๋กœ๋ถ€ํ„ฐ ์ค‘์‹ฌ๋‹จ์–ด๋ฅผ ํ•™์Šต/์˜ˆ์ธกํ•˜๋Š”, Word2Vec-CBOW.
์ค‘์‹ฌ๋‹จ์–ด๋กœ๋ถ€ํ„ฐ ์ฃผ๋ณ€๋‹จ์–ด๋ฅผ ํ•™์Šต/์˜ˆ์ธกํ•˜๋Š”, Word2Vec-Skip Gram.
๋”ฅ๋Ÿฌ๋‹ ์„ธ์…˜์—์„œ ๋ฐฐ์šด RNN์— ๋Œ€ํ•ด ๋ณต์Šตํ•˜๊ณ , ๊ฐœ์„ ๋œ ์•„ํ‚คํ…์ฒ˜์ธ LSTM๊ณผ GRU์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์•˜์Šต๋‹ˆ๋‹ค. ๋ฒˆ์—ญ๊ธฐ์— ๋„์ž…๋˜์–ด ์˜จ seq2seq, ๋ฒˆ์—ญ ์„ฑ๋Šฅ์˜ ํ˜์‹ ์„ ์ผ์œผํ‚จ Transformer , ํ…์ŠคํŠธ ์ƒ์„ฑํ˜• AI๋กœ ์ฃผ๋ชฉ ๋ฐ›์œผ๋ฉฐ ๋˜ ํ•œ ๋ฒˆ์˜ ํ˜์‹ ์„ ์ผ์œผํ‚ค๊ณ  ์žˆ๋Š” BERT ๋ชจ๋ธ์˜ ๊ตฌ์„ฑ์„ encoder, decoder ๋‹จ์—์„œ๋ถ€ํ„ฐ ์‚ดํ”ผ์—ˆ์œผ๋ฉฐ ์ถœ๋ ฅ ์‹œํ€€์Šค์˜ ์ •ํ™•๋„๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๋†’์ธ Attention ํ•จ์ˆ˜์˜ ์›๋ฆฌ๋ฅผ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค.
Attention Value ์—ฐ์‚ฐ : ์ถœ๋ ฅ ๋‹จ์–ด ์˜ˆ์ธก์‹œ์ ๋งˆ๋‹ค ์—ฐ๊ด€ ๋‹จ์–ด์— ์ง‘์ค‘ํ•˜๋„๋ก ๊ฐ’์„ ํ• ๋‹นํ•œ๋‹ค.
Attention ๋ถ„ํฌ ์—ฐ์‚ฐ ๋„์‹๊ณผ softmax ํ•จ์ˆ˜ ์‹œ๊ฐํ™”
BERT ๋ชจ๋ธ์—์„œ์˜ self-Attention
ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ํ™œ์šฉํ•œ ์ธ์ฝ”๋”, ๋””์ฝ”๋” ๊ธฐ๋ฐ˜์˜ ๋ชจ๋ธ์ธ BERT์™€ GPT๋ฅผ ๊ตฌ๋ถ„ํ•˜์—ฌ ํ•™์Šตํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์™ธ๋ถ€ ์ง€์‹ ๋ฒ ์ด์Šค๋ฅผ ์—ฐ๊ฒฐํ•ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” RAG์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๊ณ , LLM์„ ํ™œ์šฉํ•˜๋Š” ๊ฐœ๋ฐœ ํ”„๋ ˆ์ž„์›Œํฌ์ธ ๋žญ์ฒด์ธ์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์•˜์Šต๋‹ˆ๋‹ค.
BERT
GPT
ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์ธ์ฝ”๋”๋งŒ ์‚ฌ์šฉ
ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๋””์ฝ”๋”๋งŒ ์‚ฌ์šฉ
์–‘๋ฐฉํ–ฅ(์•ž๋’ค ๋ฌธ๋งฅ ๋ชจ๋‘ ์ฐธ์กฐ)
๋‹จ๋ฐฉํ–ฅ(์™ผ์ชฝ โ†’ ์˜ค๋ฅธ์ชฝ)
MLM + NSP๋กœ ํ•™์Šต
๋‹ค์Œ ๋‹จ์–ด ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต
์–ธ์–ด ์ดํ•ด
์–ธ์–ด ์ƒ์„ฑ
2018(Google)
2018 ~(OpenAI)
์งˆ๋ฌธ ์‘๋‹ต, ๊ฐ์ • ๋ถ„์„, ๋ฌธ์„œ ๋ถ„๋ฅ˜, ๊ฒ€์ƒ‰ ๋“ฑ
๊ธ€์“ฐ๊ธฐ, ๋Œ€ํ™”, ์š”์•ฝ, ๋ฒˆ์—ญ, ์ฑ—๋ด‡ ๋“ฑ
RAG์˜ ๊ตฌ์กฐ ์˜ˆ์‹œ
๋žญ์ฒด์ธ์œผ๋กœ ๊ตฌ์„ฑํ•œ RAG ์›Œํฌ ํ”„๋กœ์„ธ์Šค

Session 8~9. ์‹œ๊ณ„์—ด

์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์˜ ์ •์˜, ์ข…๋ฅ˜์™€ ํ•จ๊ป˜ ์‹œ๊ฐ„ ์˜์กด์„ฑ, ์ž๊ธฐ์ƒ๊ด€, ์ถ”์„ธ, ๊ณ„์ ˆ์„ฑ ๊ฐ™์€ ํ•ต์‹ฌ ํ†ต๊ณ„์  ํŠน์„ฑ์„ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹œ๊ณ„์—ด์„ ์ถ”์„ธ, ๊ณ„์ ˆ์„ฑ, ์ˆœํ™˜, ๋ถˆ๊ทœ์น™ ์š”์ธ์œผ๋กœ ๋ถ„ํ•ดํ•˜๋Š” ๊ธฐ๋ฒ•์„ ์ตํžˆ๊ณ , ๋ถ„์„์˜ ์ „์ œ ์กฐ๊ฑด์ธ ์ •์ƒ์„ฑ(Stationarity)์˜ ๊ฐœ๋…๊ณผ ์ค‘์š”์„ฑ์— ๋Œ€ํ•ด ํ•™์Šตํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์‹œ๊ฐ์  ํƒ์ƒ‰ ๋ฐ ํ†ต๊ณ„ ๊ฒ€์ •์„ ํ†ตํ•ด ์ •์ƒ์„ฑ์„ ํŒ๋‹จํ•˜๊ณ , Pandas๋ฅผ ํ™œ์šฉํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ๋ฉฐ ์ •์ƒ์„ฑ์„ ํ™•๋ณดํ•˜๋Š” ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•๋“ค์„ ์‚ดํŽด๋ณด์•˜์Šต๋‹ˆ๋‹ค.
์‹œ๊ณ„์—ด์—์„œ์˜ ์ถ”์„ธ์„ฑ, ๊ณ„์ ˆ์„ฑ, ์ฃผ๊ธฐ์„ฑ, ๋ถˆ๊ทœ์น™ ์š”์ธ
์‹œ๊ณ„์—ด์—์„œ์˜ ์ฐจ๋ถ„
์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ๋Š”?
(1) ์ž๊ธฐ์ƒ๊ด€์„ฑ(Autocorrelation)
(2) ๋น„์ •์ƒ์„ฑ(Non-stationarity)
(3) ๊ณ„์ ˆ์„ฑ(Seasonality)
๋กœ๊ทธ ๋ณ€ํ™˜์„ ํ†ตํ•œ ๋ถ„์‚ฐ ์•ˆ์ •ํ™”
๋‹จ๋ณ€๋Ÿ‰/๋‹ค๋ณ€๋ž‘ ์‹œ๊ณ„์—ด ๋ชจ๋ธ์„ ์‚ดํŽด๋ณด์•˜์Šต๋‹ˆ๋‹ค. ๋‹จ๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด ๋ชจ๋ธ์€ ์•ˆ์ •์ / ๋ถˆ์•ˆ์ • ์‹œ๊ณ„์—ด ๋ชจ๋ธ๋กœ ๊ตฌ๋ถ„ํ•˜์—ฌ AR, MA, ARMA / ARIMA, SARIMA์— ๋Œ€ํ•ด ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. VAR์„ ํ†ตํ•ด ๋‹ค๋ณ€๋Ÿ‰ ์‹œ๊ณ„์—ด ๋ถ„์„์„ ๊ณต๋ถ€ํ•˜๊ณ , RNN, Transformer ๊ธฐ๋ฐ˜์˜ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ๊ณผ Foundation model์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์•˜์Šต๋‹ˆ๋‹ค.
์ž๊ธฐ์ƒ๊ด€ํ•จ์ˆ˜(Auto Correlation Function, ACF)
VAR ๋ชจ๋ธ ์ˆ˜์‹
๋ถ€๋ถ„์ž๊ธฐ์ƒ๊ด€ํ•จ์ˆ˜(Partial ACF, PACF)
๋‹ค์ค‘ ์‹œ์  ์‹œ๊ณ„์—ด ์˜ˆ์ธก ๋ชจ๋ธ : TFT