Session

교육 세션

인사이트는 총 7회의 교육세션(OT 포함)을 통해 신입 기수의 소프트랜딩을 도모하고, 학회원들의 체계적인 데이터 분석 및 모델링을 위한 기초를 다지고 있습니다.

교육 세션 [파이썬]

학기 초에는 Github의 사용법과 Python을 학습합니다. Pandas를 위주로 Python의 기초부터 심화까지, 그리고 EDA에 필요한 데이터 전처리 및 시각화를 4번의 세션에 걸쳐 학습합니다.

Session 0 (OT). Jupyter, Github

본 세션은 본격적인 교육 세션 진행에 앞선 사전 학습 과정에 해당합니다. Jupyter Notebook을 설치하고 초기 설정을 진행하였습니다. 또한, 과제 제출 및 포트폴리오 관리를 위한 Github 활용 방법에 대해 학습하였습니다.

Session 1. Pandas

본 세션에서는 기본적인 파이썬 문법을 복습하고, Pandas 문법을 실제 데이터에 적용해 보았습니다.

Session 2. EDA & 전처리

본 세션에서는 데이터를 분석하고 이해하기 위한 EDA와 전처리 과정에 대해 알아보았습니다. 또한 데이터를 읽는 방식과 시각화의 기초적인 내용을 학습하고, EDA의 대상과 종류에 따른 EDA 유형을 파악하였습니다. 모델링을 위해 데이터를 손질하는 전치리 과정을 이해하고, 파이썬을 통해 전처리와 시각화 과정을 실습하였습니다.

교육 세션 [통계]

파이썬 교육 세션 이후, 총 4회의 통계 세션(통계, 회귀, 분류)을 통해 데이터 분석의 기반이 되는 기초적인 통계 개념과 머신 러닝(회귀, 분류)의 이론적 기반을 학습했습니다.

Session 3. 통계

본 세션에서는 기술 통계와 추리 통계, 다양한 분포들과 가설 검정의 절차 및 해석 등 통계와 관련된 다양한 이론적 기반에 대해 학습했습니다.

Session 4. 회귀 기초

본 세션에서는 단순 선형 회귀, 다중 선형 회귀의 이론적 기반에 대해 학습하고 실습해보는 시간을 가졌습니다.

Session 5. 회귀 심화

본 세션에서는 다중 선형 회귀의 기본 가정을 검정해 보고 회귀 분석의 평가 방법에 대해 알아보았습니다. 그리고 비선형 회귀 모델을 학습한 뒤 실제 데이터에 적용해 보았습니다.

Session 6. 분류

분류의 개념, 종류, 평가 지표에 대해 이해하고 하이퍼파라미터 최적화를 학습했습니다. 그리고 코드를 통해 분류 모델을 구현하고 평가해 보았습니다.

어떤 하이퍼파라미터(Hyperparameters)를 설정하느냐에 따라 모델 성능(Score)가 달라진다.

Session 7. 군집화

군집화의 목표와 특징을 살펴보고 계층적 군집화와 비계층적 군집화의 구분에 대해 학습하였습니다.

계층적 군집화와 비계층적 군집화의 개념과 분석 방법에 대해 구체적으로 살펴보고 각 군집화에 속하는 군집화 방법론을 공부했습니다.

	계층적 군집화	비계층적 군집화
방법론	응집법, 분할법	K-means, GMM, DBSCAN
장점	데이터가 수의 적은 경우 안정적으로 사용	계속적으로 군집을 재구성&할당 데이터의 수가 많을 경우 유용
단점	한 번 형성된 군집은 다시 판별하지 않음	초기 군집의 영향을 크게 받아 불안정한 군집을 제공할 가능성

군집화 알고리즘의 평가 방법에 대해 알아보았습니다. 외부평가는 이미 정해진 정답을 기준으로 군집화 알고리즘의 정확도를 측정하는 방식으로, 알고리즘의 성능을 검증하는 데 사용되는 반면, 내부평가는 정답 없이 군집 내 데이터의 응집성과 군집 간의 분리도를 평가하는 방식으로, 주로 Dunn Index나 Silhouette 계수와 같은 지표를 통해 이뤄진다는 점을 살펴보았습니다.

심화 세션

교육 세션을 마친 후에는 심화 세션을 진행했습니다. 데이터 분석과 머신러닝 심화 주제 중 관심 분야에 따라 팀을 구성하였고, 각 팀은 학습 자료와 실습 과제를 제작하여 주 2회 정규 세션을 진행했습니다.

Session 1. 앙상블

본 세션에서는 여러 개의 개별 분류모델들을 결합해 하나의 분류모델보다 더 좋은 성능을 내는 앙상블에 대해 공부했습니다. 종류에 따라 보팅(Voting), 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking)을 구분하였고, Random Forest, XGBoost, LightGBM 등의 모델들에 대해 알아보았습니다.

앙상블 구조도

랜덤 포레스트의 프로세스

LightGBM 알고리즘 소개

스태킹 알고리즘을 알아보고, K 폴드 교차검증을 통해 학습과 검증을 반복적으로 수행하는 법을 알아보았습니다.

스태킹 알고리즘

K 폴드 교차검증

앙상블을 포함한 복잡한 모델의 구조적인 문제인 블랙박스 문제와, 이를 해결하기 위한 LIME 알고리즘에 대해 알아보았습니다.

LIME 알고리즘을 통한 블랙박스 해석 프로세스

Session 2. 추천시스템

추천시스템의 등장 배경과 관련 기술의 발전을 살피고, 내용 기반 필터링과 협업 필터링의 원리를 이해합니다. 내용 기반 필터링과 관련하여 상품(아이템)에 대한 벡터 연산을 실습했습니다. 협업 필터링과 관련하여, 메모리 기반과 모델 기반 방식을 학습하고, 각 방식에 대한 유사도, 행렬 연산을 실습했습니다.

모델 기반 필터링과 관련하여, 클러스터링, 토픽 모델, 행렬 분해 모델을 살펴보고 추천 모델의 평가 지표를 학습했습니다.

연대별 추천시스템에 사용된 대표적인 기술

추천시스템의 분류

내용(콘텐츠) 기반 필터링

•

책의 제목이나 저자, 장르 등과 같이 아이템의 내용을 나타내는 정보를 사용

•

사용자가 선호하는 정보를 기반으로 내용이 비슷한 아이템을 계산함으로써 추천을 수행하는 알고리즘 

협업(협조) 필터링

•

서비스 내에 있는 다른 사용자의 과거 행동 등을 통해 얻어진 기호 경향을 활용하는 추천 알고리즘.

특이값 분해

Session 3. 연관분석

유통업계에서 “장바구니 분석”이라고도 부르는 연관 분석에 대해 공부했습니다. 주요 개념을 이해하고, 이후 Apriori, FP-Growth 알고리즘을 비교하며 알아보았습니다. 또한 이전 세션의 내용이었던 협업 필터링과 비교해보았습니다.

Apripori 알고리즘

FP-Growth 알고리즘

혐업 필터링 vs 연관분석

구분	상품기반 협업 필터링	연관분석(장바구니 분석)
연산 방식	상관관계 기반(같은 방향으로 증감하는 강도)	교집합 기반(장바구니에 같이 담겨있는 비율)
알고리즘 구조	상품마다 타 상품과 1:1 계산(특정상품의 구매데이터를 다른 상품의 구매데이터와 비교)	상품마다 주문내역을 1:n 계산(특정상품이 포함된 구매데이터에서 다른 상품의 비율을 계산)
특징	사용자의 개인 선호도(평가점수, 구매횟수 등)에 따라 선호 상품 추출 가능	상품과 연관성이 높은 1개이상의 상품을 세트로 추출 가능
추천 방식	타 상품의 유사도 순위대로 노출	연관지표가 높은 세트상품(1개이상) 노출

실무에서 많이 활용되는 기법인 만큼 실제 활용사례를 알아보았습니다. 소매, 의료, 금융, 웹, 베이커리 등의 도메인의 수치를 바탕으로 전략을 제안해보고, 실제 넷플릭스에서 사용된 연관분석에 대해 알아보았습니다.

베이커리 컨설팅 예제. 위의 표를 통해 나름의 전략을 제안해보자!

Session 4~5. 딥러닝

인공지능(AI), 머신러닝, 딥러닝의 개념을 살피고 비정형 데이터에 대해 자가학습 하는 딥러닝에 대해 공부했습니다. 인공신경망(Artificial Neural Network, ANN) 모델 내 의사결정 원리를 살피고 퍼셉트론의 구조와 다층화와 신경망으로의 연결, 구체적인 신경망 학습 모델을 다루었습니다.

	머신러닝	딥러닝
특징	1. 사람이 특징을 추출하고, 특정 패턴을 추출하는 방법을 컴퓨터에게 지시 2. 컴퓨터가 데이터를 학습 (사람이 지시한 패턴에 기반해서 컴퓨터가 스스로 데이터의 특징을 분석하고 축적)	1. 컴퓨터가 정해진 신경망을 기반으로 스스로 특징 추출·분류 작업 수행 (사람이 하던 패턴 추출 작업 생략) 2. 컴퓨터가 데이터 학습
데이터	주로 정형 데이터를 다룸	주로 비정형 데이터를 다룸
모델	각종 회귀분석, Decision Tree	CNN, RNN

(좌) 우리 뇌의 신경(뉴런) vs (우) 인공신경

은닉층과 역전

역전파와 chain rule

CNN의 연산 과정

 이후, 고정 입력크기 데이터에 대해 합성곱 pooling 계층 연산을 수행하는 CNN, 크기에 가변성이 있는 순차적 데이터에 대해 이전 시점의 출력을 고려하여 기억과 연산을 수행하는 RNN을 비교하고, 수행하고자 하는 task와 데이터의 종류에 따라 적합할 DL 모델을 논의하고, 구체적인 원리와 용례를 비교하며 학습했습니다.

RNN의 은닉층과 품사 태깅

Session 6~7. 자연어처리(Natural Language Processing)

자연언어처리의 개념과 텍스트 전처리, 피처 벡터화, 주요 언어모델과 텍스트 데이터에 대한 벡터연산을 살펴보았습니다. 직접 텍스트데이터의 전처리를 하고, KoNLPy 패키지를 사용해 형태소 분석을 수행하는 실습을 진행했습니다. 전통적 방법인 BoW(Bag-of-Words)로부터 TF-IDF(Term Frequency-Inverse Document Frequency) 까지의 개선사항을 살피고, 최신의 인공신경망을 사용하는 Word2Vec이 의미론적 관계를 반영할 수 있게 된 배경까지 NLP 모델의 발전과정과 기반 원리를 학습했습니다.

LSTM : 은닉층의 셀에 입출력 게이트와 망각 게이트를 추가하여 기억에 대한 연산을 개선하여 RNN의 단점을 개선한 모델.

Word2Vec를 활용해, 단어 간의 의미연산을 수행한 예.

주변단어로부터 중심단어를 학습/예측하는, Word2Vec-CBOW.

중심단어로부터 주변단어를 학습/예측하는, Word2Vec-Skip Gram.

딥러닝 세션에서 배운 RNN에 대해 복습하고, 개선된 아키텍처인 LSTM과 GRU에 대해 알아보았습니다. 번역기에 도입되어 온 seq2seq, 번역 성능의 혁신을 일으킨 Transformer , 텍스트 생성형 AI로 주목 받으며 또 한 번의 혁신을 일으키고 있는 BERT 모델의 구성을 encoder, decoder 단에서부터 살피었으며 출력 시퀀스의 정확도를 효과적으로 높인 Attention 함수의 원리를 학습했습니다.

Attention Value 연산 : 출력 단어 예측시점마다 연관 단어에 집중하도록 값을 할당한다.

Attention 분포 연산 도식과 softmax 함수 시각화

BERT 모델에서의 self-Attention

트랜스포머를 활용한 인코더, 디코더 기반의 모델인 BERT와 GPT를 구분하여 학습하였습니다. 외부 지식 베이스를 연결해 모델의 성능을 높이는 RAG에 대해 알아보고, LLM을 활용하는 개발 프레임워크인 랭체인에 대해 알아보았습니다.

BERT	GPT
트랜스포머의 인코더만 사용	트랜스포머의 디코더만 사용
양방향(앞뒤 문맥 모두 참조)	단방향(왼쪽 → 오른쪽)
MLM + NSP로 학습	다음 단어 예측하는 방식으로 학습
언어 이해	언어 생성
2018(Google)	2018 ~(OpenAI)
질문 응답, 감정 분석, 문서 분류, 검색 등	글쓰기, 대화, 요약, 번역, 챗봇 등

RAG의 구조 예시

랭체인으로 구성한 RAG 워크 프로세스

Session 8~9. 시계열

시계열 데이터의 정의, 종류와 함께 시간 의존성, 자기상관, 추세, 계절성 같은 핵심 통계적 특성을 학습했습니다. 시계열을 추세, 계절성, 순환, 불규칙 요인으로 분해하는 기법을 익히고, 분석의 전제 조건인 정상성(Stationarity)의 개념과 중요성에 대해 학습하였습니다. 또한, 시각적 탐색 및 통계 검정을 통해 정상성을 판단하고, Pandas를 활용해 데이터를 다루며 정상성을 확보하는 다양한 방법들을 살펴보았습니다.

시계열에서의 추세성, 계절성, 주기성, 불규칙 요인

시계열에서의 차분

시계열 데이터는?

(1) 자기상관성(Autocorrelation)

(2) 비정상성(Non-stationarity)

(3) 계절성(Seasonality)

로그 변환을 통한 분산 안정화

단변량/다변랑 시계열 모델을 살펴보았습니다. 단변량 시계열 모델은 안정적/ 불안정 시계열 모델로 구분하여 AR, MA, ARMA / ARIMA, SARIMA에 대해 학습했습니다. VAR을 통해 다변량 시계열 분석을 공부하고, RNN, Transformer 기반의 딥러닝 모델과 Foundation model에 대해 알아보았습니다.

자기상관함수(Auto Correlation Function, ACF)

VAR 모델 수식

부분자기상관함수(Partial ACF, PACF)

다중 시점 시계열 예측 모델 : TFT