데이터 분석 머신러닝/통계분석/분석기법/전처리/시각화 종류 총정리

카테고리 없음

데이터 분석 머신러닝/통계분석/분석기법/전처리/시각화 종류 총정리

ParkS2 2026. 2. 22. 23:05

이번 포스트에서는 데이터 분석에는 어떤 대표적인 머신러닝 알고리즘이 있는지, 또한 분석에 많이 쓰이는 통계분석, 비즈니스적 그외에도 다양한 도메인 맞춤형 분석기법과 데이터 전처리, 시각화 종류들에 대해서 나열을 하고 다음 포스트에서 하나씩 상세히 설명하도록 하겠습니다.

머신러닝 알고리즘

1. 비지도 학습 (Unsupervised Learning)

정답(레이블)이 없는 데이터에서 패턴이나 구조를 찾아내는 기법입니다. 질문하신 클러스터링과 연관분석이 여기에 해당합니다.

군집화 (Clustering)
- K-Means: 데이터를 K개의 그룹으로 묶는 가장 대표적인 알고리즘입니다.
- 계층적 군집화 (Hierarchical Clustering): 계층적 트리 구조를 이용해 데이터를 군집화합니다.
- DBSCAN: 데이터의 밀도를 기반으로 군집을 형성하며, 노이즈 데이터 처리에 효과적입니다.

연관 분석 (Association Analysis)
- Apriori: 장바구니 분석이라고도 불리며, "A를 산 사람이 B도 사더라"와 같은 규칙을 발견합니다.
- FP-Growth: Apriori보다 속도가 빠른 연관 규칙 알고리즘입니다.
차원 축소 (Dimensionality Reduction)
- PCA (주성분 분석): 데이터의 분산을 최대한 보존하면서 변수의 개수를 줄입니다.
- t-SNE: 고차원 데이터를 시각화하기 위해 저차원으로 변환할 때 주로 사용합니다.

2. 지도 학습 (Supervised Learning)

정답(레이블)이 있는 데이터를 학습하여 미래 데이터를 예측하거나 분류하는 기법입니다.

분류 (Classification)
- 의사결정나무 (Decision Tree): 스무고개처럼 규칙을 만들어 데이터를 분류합니다.
- 로지스틱 회귀 (Logistic Regression): 이름은 회귀지만 실제로는 이진 분류(예/아니오)에 주로 사용됩니다.
- 랜덤 포레스트 (Random Forest): 여러 개의 의사결정나무를 합쳐 성능을 높인 앙상블 기법입니다.
- SVM (Support Vector Machine): 데이터 간의 경계를 가장 잘 나누는 선(초평면)을 찾습니다.
- 나이브 베이즈 (Naive Bayes): 확률적 통계 이론을 적용한 분류 기법입니다.
- XGBoost / LightGBM: 부스팅 방식을 사용하여 속도와 성능을 높인 알고리즘입니다.
회귀 (Regression)
- 선형 회귀 (Linear Regression): 데이터의 경향성을 가장 잘 나타내는 직선을 찾습니다.
- 릿지 (Ridge) / 라쏘 (Lasso): 선형 회귀에 규제를 적용해 과적합을 방지합니다.

3. 기타 분석 기법

시계열 분석 (Time Series)
- ARIMA: 과거 데이터의 패턴을 기반으로 미래 수치를 예측합니다.
- Prophet: 페이스북에서 만든 시계열 예측 라이브러리로 계절성 반영에 강점이 있습니다.
텍스트 마이닝 (Text Mining)
- TF-IDF: 문서 내에서 단어의 중요도를 계산합니다.
- 토픽 모델링 (LDA): 문서 집합에서 추상적인 주제를 찾아냅니다.

분석 방법론

1. 고객 행동 및 경험 분석 (Behavioral Analysis)

사용자가 서비스 내에서 어떻게 행동하는지를 파악하는 기법들입니다.

코호트 분석 (Cohort Analysis)
- 특정 기간 동안 공통된 특성(예: 가입 시기, 첫 구매 시기)을 가진 사용자 그룹(코호트)으로 나누어 시간 경과에 따른 행동 변화(주로 재방문율, 유지율)를 추적합니다.
퍼널 분석 (Funnel Analysis)
- 사용자가 유입되어 최종 목표(예: 결제, 회원가입)까지 도달하는 과정을 단계별로 나누어, 어디서 이탈이 가장 많이 발생하는지 파악합니다. '깔때기 분석'이라고도 합니다.
경로 분석 (Path Analysis)
- 사용자가 웹사이트나 앱 내에서 이동하는 구체적인 순서와 흐름을 시각화하여 파악합니다.

2. 고객 가치 및 세분화 (Customer Value & Segmentation)

고객의 중요도를 평가하고 그룹을 나누는 기법입니다.

RFM 분석
- Recency (최근성), Frequency (빈도), Monetary (금액) 세 가지 지표를 기준으로 고객의 가치를 점수화하여 등급을 매깁니다. VIP 고객 관리나 이탈 방지에 필수적입니다.
LTV 분석 (Life Time Value)
- 고객 생애 가치 분석입니다. 한 명의 고객이 유입되어 이탈할 때까지 회사에 기여하는 총 수익을 예측합니다.
이탈 분석 (Churn Analysis)
- 고객이 서비스를 그만두는(이탈) 징후를 미리 파악하고, 이탈률을 계산하거나 이탈 가능성이 높은 고객을 예측합니다.

3. 마케팅 및 성과 측정 (Marketing & Performance)

어떤 전략이 효과적이었는지 검증하는 기법입니다.

A/B 테스트
- 두 가지 이상의 버전(A안, B안)을 무작위로 사용자에게 노출하여 어떤 안이 더 높은 성과(클릭률, 구매율 등)를 내는지 통계적으로 검증합니다.
기여도 분석 (Attribution Analysis)
- 고객이 구매하기까지 거쳐간 여러 접점(광고, 검색, SNS 등) 중 어떤 채널이 구매에 얼마나 기여했는지를 분석합니다.

4. 인과 추론 (Causal Inference)

단순히 "데이터가 같이 움직인다(상관관계)"가 아니라, "이것 때문에 저것이 변했다(인과관계)"를 밝혀내는 고급 분석입니다.

이중 차분법 (DID, Difference in Differences)
- 특정 정책이나 이벤트의 효과를 측정할 때 사용합니다. (예: 쿠폰을 발행한 집단과 안 한 집단의 전후 변화량 차이를 비교)
인과 임팩트 (Causal Impact)
- 마케팅 캠페인이나 UI 변경 후, 만약 그 이벤트가 없었다면 어땠을지 가상의 상황(Counterfactual)을 예측해 실제와 비교합니다.

5. 네트워크 분석 (Network Analysis / SNA)

데이터 간의 '연결 관계'를 분석합니다.

중심성 분석 (Centrality Analysis)
- 네트워크에서 가장 영향력 있는 '허브'를 찾습니다. (예: 사내에서 정보가 가장 많이 거쳐가는 사람은 누구인가? 전염병 슈퍼 전파자는 누구인가?)
커뮤니티 탐지 (Community Detection)
- 복잡한 네트워크 안에서 끼리끼리 뭉친 하위 그룹을 찾아냅니다. (예: SNS 팔로우 관계를 통한 관심사 그룹 발견)

6. 텍스트 및 감성 분석 (Text & Sentiment Analysis)

숫자가 아닌 글자(비정형 데이터)를 분석합니다.

감성 분석 (Sentiment Analysis)
- 리뷰나 댓글이 긍정적인지, 부정적인지 점수화합니다. (예: 신제품 출시에 대한 고객 반응 분석)
키워드 추출 및 워드 클라우드
- 텍스트에서 가장 많이 등장하거나 중요한 핵심 단어를 시각화합니다.

7. 최적화 및 시뮬레이션 (Optimization & Simulation)

"앞으로 어떻게 될까?"를 넘어 "어떻게 하는 것이 최선인가?"를 찾습니다.

몬테카를로 시뮬레이션 (Monte Carlo Simulation)
- 불확실한 변수들을 무작위로 수만 번 대입해 보며 발생 가능한 모든 결과의 확률을 계산합니다. (예: 리스크 관리, 주식 포트폴리오 수익률 예측)
선형 계획법 (Linear Programming)
- 자원(돈, 시간, 인력)이 한정된 상황에서 이익을 최대화하거나 비용을 최소화하는 조합을 찾습니다. (예: 배송 경로 최적화, 생산 계획 수립)

통계분석

1. 기술 통계 (Descriptive Statistics)

복잡한 데이터를 표나 그래프, 대표값으로 요약해서 "현재 데이터가 어떻게 생겼는지" 보여주는 기법입니다.

중심 경향성 분석: 데이터의 중심이 어디인지 파악합니다.
- 평균 (Mean): 산술적인 평균값.
- 중앙값 (Median): 데이터를 순서대로 나열했을 때 딱 중간에 있는 값 (이상치에 강함).
- 최빈값 (Mode): 가장 자주 등장하는 값.
산포도 분석: 데이터가 얼마나 퍼져 있는지 파악합니다.
- 분산 (Variance) / 표준편차 (Standard Deviation): 평균으로부터 데이터가 얼마나 떨어져 있는지 나타냅니다.
- 범위 (Range) / 사분위수 (Quartiles): 데이터의 최소~최대 구간 및 25%, 50%, 75% 지점을 확인합니다.

2. 추론 통계 (Inferential Statistics) - 가설 검정

"이 결과가 우연이 아님"을 수학적으로 증명할 때 사용합니다. A/B 테스트나 품질 관리에서 필수적입니다.

T-검정 (T-test)
- 두 집단의 평균 차이가 통계적으로 유의미한지 확인합니다.
- 예: "남녀 간의 평균 연봉 차이가 진짜 있는가?", "신약 투여 전후의 혈압 차이가 있는가?"
분산 분석 (ANOVA)
- 세 집단 이상의 평균 차이를 비교합니다.
- 예: "A, B, C 세 가지 마케팅 시안에 따른 클릭률 차이가 있는가?"
카이제곱 검정 (Chi-square Test)
- 범주형 데이터(예/아니오, A반/B반) 간의 연관성을 확인합니다.
- 예: "성별(남/녀)과 선호하는 자동차 색상(검/흰/빨) 사이에 관계가 있는가?"

3. 관계 및 예측 분석

변수들 사이의 관계를 파악하거나 미래를 예측합니다.

상관 분석 (Correlation Analysis)
- 두 변수가 얼마나 강하게 연결되어 있는지 확인합니다. (-1 ~ 1 사이의 값)
- 피어슨 상관계수: 일반적인 수치형 데이터 간의 선형 관계.
- 스피어만 상관계수: 서열(순위) 데이터 간의 관계.
회귀 분석 (Regression Analysis)
- 단순히 관계가 있다를 넘어, "x가 변할 때 y가 얼마나 변하는지" 함수식을 만듭니다.
- 단순 선형 회귀: 독립변수가 1개일 때 (예: 기온이 오르면 아이스크림 판매량이 얼마나 오르나?).
- 다중 선형 회귀: 독립변수가 여러 개일 때 (예: 기온, 습도, 요일이 아이스크림 판매량에 미치는 영향).

4. 다변량 분석 (Multivariate Analysis)

변수가 매우 많을 때 복잡성을 줄이고 구조를 파악합니다.

요인 분석 (Factor Analysis)
- 수많은 변수 속에 숨어 있는 공통된 잠재 요인(Factor)을 찾아냅니다.
- 예: 국어, 영어, 수학 점수 데이터에서 '언어 능력', '수리 능력'이라는 잠재 요인 추출.
주성분 분석 (PCA)
- 데이터의 정보 손실을 최소화하면서 변수의 개수를 줄이는 차원 축소 기법입니다. (머신러닝 전처리로도 많이 쓰임)

5. 생존 분석 (Survival Analysis)

단순히 사건의 발생 여부가 아니라, **"사건이 발생하기까지 걸린 시간"**을 분석합니다. 의학 연구뿐만 아니라 비즈니스에서 고객 이탈 예측에 매우 중요하게 쓰입니다.

카플란-마이어 분석 (Kaplan-Meier Estimator): 시간 경과에 따른 생존 확률(고객이 남아있을 확률)을 추정하여 시각화합니다.
콕스 비례위험 모형 (Cox Proportional Hazards Model): 어떤 변수(나이, 성별, 가입금액 등)가 생존 시간(이탈 시점)에 얼마나 영향을 미치는지 분석합니다.

6. 비모수 통계 (Non-parametric Statistics)

데이터가 정규분포(종 모양)를 따르지 않거나, 데이터 개수가 너무 적을 때(30개 미만 등) 사용하는 기법입니다. 평균 대신 '순위(Rank)'나 '중앙값'을 주로 사용합니다.

만-휘트니 U 검정 (Mann-Whitney U test): 두 집단의 차이를 비교할 때 사용합니다. (T-test의 대안)
크러스칼-왈리스 검정 (Kruskal-Wallis test): 세 집단 이상의 차이를 비교할 때 사용합니다. (ANOVA의 대안)
윌콕슨 부호 순위 검정 (Wilcoxon Signed-rank test): 짝을 이룬 두 데이터의 차이를 비교할 때 사용합니다. (Paired T-test의 대안)

7. 베이지안 통계 (Bayesian Statistics)

기존의 빈도주의 통계(P-value 중심)와 달리, **"사전 지식(Prior)에 새로운 데이터를 더해 확률을 업데이트(Posterior)"**하는 방식입니다.

데이터가 추가될 때마다 확률이 계속 갱신되므로, 실시간 의사결정이나 데이터가 부족한 초기 단계 분석에 유리합니다.
MCMC (Markov Chain Monte Carlo): 복잡한 베이지안 모델의 파라미터를 추정하기 위해 시뮬레이션을 사용하는 기법입니다.

8. 구조방정식 모델링 (SEM, Structural Equation Modeling)

여러 변수 간의 복잡한 인과관계를 한 번에 검증하는 기법입니다. 설문 조사 분석이나 사회과학 연구에서 많이 쓰입니다.

경로 분석 (Path Analysis): 변수들 간의 직접적인 영향과 간접적인 영향을 동시에 파악합니다.
확인적 요인 분석 (CFA): 측정하려는 설문 문항들이 의도한 개념(잠재 변수)을 제대로 설명하고 있는지 검증합니다.

9. 공간 통계 (Spatial Statistics)

데이터에 **위치 정보(위도, 경도, 주소)**가 포함되어 있을 때 사용합니다. 지도 데이터 분석에 필수적입니다.

모란 지수 (Moran's I): 공간적 자기상관성을 측정합니다. (예: 범죄 발생 지역이 특정 구역에 뭉쳐 있는가, 퍼져 있는가?)
크리깅 (Kriging): 특정 지점의 데이터를 바탕으로 데이터가 없는 주변 지점의 값을 예측/보간합니다. (예: 관측소가 없는 지역의 미세먼지 농도 추정)

10. 다변량 분석의 확장 (Advanced Multivariate)

변수 간의 관계를 더 깊게 파고드는 기법들입니다.

정준 상관 분석 (Canonical Correlation Analysis): 변수 '그룹'과 다른 변수 '그룹' 간의 상관관계를 분석합니다. (예: '신체적 건강 지표들'과 '정신적 건강 지표들' 사이의 관계)
컨조인트 분석 (Conjoint Analysis): 소비자가 제품을 선택할 때 어떤 속성(가격, 디자인, 성능 등)에 가중치를 두는지 분석하여 최적의 상품 조합을 찾습니다. (마케팅 필수 기법)

데이터 전처리

1. 데이터 정제 (Data Cleaning)

데이터의 오류나 누락을 수정하는 과정입니다.

결측치 처리 (Missing Values): 삭제, 평균/중앙값/최빈값 대치, 예측 모델 사용
이상치 처리 (Outlier Handling): IQR 방식, Z-Score, 격리 또는 제거
노이즈 제거 (Noise Reduction): 구간화(Binning), 군집화, 회귀 분석
중복 데이터 제거 (Deduplication): 중복된 레코드 식별 및 삭제

2. 데이터 변환 (Data Transformation)

분석에 적합한 형태로 데이터를 변경하는 과정입니다.

스케일링 (Scaling): Min-Max 정규화, Z-Score 표준화, Robust 스케일링
인코딩 (Encoding): 레이블 인코딩(Label), 원-핫 인코딩(One-Hot)
이산화 (Discretization): 연속형 변수를 범주형으로 변환 (Binning)
함수 변환 (Function Transformation): 로그 변환, 제곱근 변환 (왜도 조정)

3. 데이터 축소 (Data Reduction)

데이터의 크기를 줄이면서 정보 손실을 최소화하는 과정입니다.

차원 축소 (Dimensionality Reduction): PCA(주성분 분석), LDA, t-SNE
특징 선택 (Feature Selection): Filter, Wrapper, Embedded 방식
표본 추출 (Sampling): 단순 임의 추출, 층화 추출
데이터 압축 (Data Compression): 수치적 압축 기법

4. 데이터 통합 (Data Integration)

여러 소스의 데이터를 하나로 합치는 과정입니다.

스키마 통합 (Schema Integration): 다른 데이터베이스의 구조 일치화
엔티티 식별 (Entity Resolution): 같은 대상을 가리키는 데이터 연결
데이터 결합 (Merging/Joining): Key 값을 기준으로 데이터 병합

5. 데이터 불균형 처리 (Imbalanced Data Handling)

클래스 간 비율 차이를 조정하는 과정입니다.

오버샘플링 (Oversampling): SMOTE, ADASYN (소수 클래스 증식)
언더샘플링 (Undersampling): Random Undersampling, Tomek links (다수 클래스 제거)

6. 피처 엔지니어링 (Feature Engineering)

기존 데이터를 조합하여 모델 성능을 높일 수 있는 새로운 변수를 만드는 과정입니다.

파생 변수 생성: 기존 변수의 사칙연산 (예: 매출 / 방문자 수 = 객단가)
다항 특성 (Polynomial Features): 변수의 제곱, 세제곱 등을 추가하여 비선형 관계 표현
교호 작용 (Interaction Features): 두 변수를 곱하여 변수 간의 상호작용 반영
도메인 특화 변수: 해당 비즈니스 로직에 맞는 지표 생성 (예: BMI 지수 계산)

7. 텍스트 데이터 전처리 (NLP Specific)

비정형 텍스트 데이터를 분석 가능한 형태로 만드는 과정입니다.

토큰화 (Tokenization): 문장을 단어, 형태소, 글자 단위로 자르기
정제 (Cleaning): 특수문자, HTML 태그, 이모티콘 제거
불용어 제거 (Stopwords Removal): 조사, 관사 등 분석에 무의미한 단어 제거
어간/표제어 추출 (Stemming/Lemmatization): 단어의 뿌리 형태나 기본형으로 통일
벡터화 (Vectorization): 텍스트를 숫자로 변환 (BoW, TF-IDF, Word Embedding)

8. 시계열 데이터 전처리 (Time-Series Specific)

시간의 흐름이 있는 데이터에 특화된 처리 과정입니다.

시차 특성 생성 (Lag Features): 과거 시점의 데이터를 현재의 변수로 추가 (t-1, t-2)
이동 평균 (Rolling Window): 최근 N일간의 평균이나 합계를 변수로 추가
차분 (Differencing): 비정상성 데이터를 정상성 데이터로 변환 (현재 값 - 과거 값)
리샘플링 (Resampling): 시간 단위를 변경 (분 단위 -> 시간 단위 합계)

9. 이미지 데이터 전처리 (Image Specific)

이미지 픽셀 데이터를 모델이 학습하기 좋게 만드는 과정입니다.

데이터 증강 (Augmentation): 회전, 반전, 자르기, 밝기 조절로 데이터 수 늘리기
크기 조정 (Resizing/Cropping): 모든 이미지의 해상도 통일
정규화 (Normalization): 픽셀 값을 0~1 사이 또는 -1~1 사이로 조정

10. 데이터 분할 (Data Splitting)

학습 전 반드시 수행해야 하는 단계입니다.

Train / Validation / Test 분리: 학습용, 검증용, 평가용 데이터로 나누기
교차 검증 분할 (K-Fold): 데이터가 적을 때 효율적인 학습을 위해 데이터를 여러 겹으로 나누기

데이터 시각화

1. 비교와 추세 (Comparison & Trend)

데이터 간의 크기를 비교하거나 시간의 흐름에 따른 변화를 파악할 때 사용합니다.

막대 차트 (Bar Chart): 범주형 데이터 간의 값을 비교할 때 가장 흔히 사용됩니다. 수직 또는 수평으로 표현합니다.
선 차트 (Line Chart): 시계열 데이터의 추세나 변동을 볼 때 적합합니다. 주식 차트가 대표적입니다.
영역 차트 (Area Chart): 선 차트 아래 영역을 색으로 채워, 추세와 함께 전체적인 규모(Volume)를 강조할 때 씁니다.

2. 분포와 통계 (Distribution)

데이터가 어떻게 퍼져 있는지, 중심 위치는 어디인지 파악할 때 사용합니다.

히스토그램 (Histogram): 연속형 변수의 구간별 빈도수를 나타내어 데이터의 분포 모양을 확인합니다.
박스 플롯 (Box Plot): 데이터의 최소값, 최대값, 중앙값, 사분위수를 요약하여 보여줍니다. 이상치(Outlier)를 탐지하는 데 매우 유용합니다.
바이올린 플롯 (Violin Plot): 박스 플롯과 비슷하지만 데이터의 밀도(Density)까지 함께 보여줍니다.

3. 관계와 상관성 (Relationship)

두 개 이상의 변수가 서로 어떤 영향을 주고받는지 확인할 때 사용합니다.

산점도 (Scatter Plot): 두 변수의 좌표를 점으로 찍어 상관관계(양의 상관, 음의 상관 등)를 파악합니다.
버블 차트 (Bubble Chart): 산점도에 점의 크기(Size)라는 제3의 변수를 추가하여 3차원 정보를 표현합니다.
히트맵 (Heatmap): 값의 크기를 색상으로 표현합니다. 변수 간의 상관계수 행렬을 시각화하거나, 시간대별 활동량을 볼 때 유용합니다.

4. 비중과 구성 (Composition)

전체 데이터에서 각 항목이 차지하는 비율을 볼 때 사용합니다.

파이 차트 / 도넛 차트 (Pie / Donut Chart): 전체를 100%로 보았을 때 각 부분의 비율을 보여줍니다. 항목이 많으면 가독성이 떨어집니다.
트리맵 (Treemap): 계층 구조가 있는 데이터를 사각형의 크기로 시각화합니다. 카테고리 내의 하위 카테고리 비중을 볼 때 좋습니다.
누적 막대 차트 (Stacked Bar Chart): 막대 하나를 여러 범주로 나누어 전체 크기와 내부 구성을 동시에 비교합니다.

5. 특수 목적 및 지리 정보 (Specialized & Geospatial)

특정 비즈니스 로직이나 지리적 정보를 표현할 때 사용합니다.

캔들스틱 차트 (Candlestick Chart): 주식 시장에서 시가, 고가, 저가, 종가를 동시에 표현할 때 사용합니다.
코호트 차트 (Cohort Chart): 특정 기간에 진입한 사용자 그룹의 시간 경과에 따른 잔존율 등을 히트맵 형태로 보여줍니다.
퍼널 차트 (Funnel Chart): 마케팅이나 영업 깔때기 단계별 전환율과 이탈률을 시각화합니다.
등치 지역도 (Choropleth Map): 지도상의 지역을 데이터 값에 따라 색상으로 구분하여 표시합니다