[클러스터링] 클러스터링 알고리즘 정리

카테고리 없음

[클러스터링] 클러스터링 알고리즘 정리

ParkS2 2025. 7. 1. 23:23

1. 분할 기반 클러스터링 (Partitioning-based)

K-means

원리: 중심점 기반으로 클러스터를 형성 장점:

간단하고 빠름
구현이 쉬움
큰 데이터셋에 효율적

단점:

K 값을 미리 정해야 함
구형 클러스터만 잘 찾음
초기값에 민감
이상치에 취약

사용 예시: 고객 세분화, 이미지 압축

K-medoids (PAM)

원리: 실제 데이터 포인트를 중심점으로 사용 장점:

이상치에 더 강건
임의 거리 척도 사용 가능

단점:

K-means보다 느림
여전히 K를 미리 정해야 함

K-modes / K-prototypes

원리: 범주형 데이터용 K-means 변형 장점:

범주형 데이터 처리 가능
혼합 데이터 타입 지원

단점:

알고리즘이 복잡
모드 계산 비용

2. 계층적 클러스터링 (Hierarchical)

응집형 (Agglomerative)

원리: 개별 점에서 시작해 점진적으로 병합 연결 방법:

Single Link: 최근접 거리
Complete Link: 최원거리
Average Link: 평균 거리
Ward: 분산 최소화

장점:

K를 미리 정하지 않아도 됨
덴드로그램으로 시각화 가능
임의 모양 클러스터 발견

단점:

시간복잡도 O(n³)
큰 데이터에 부적합
노이즈에 민감

분할형 (Divisive)

원리: 전체에서 시작해 점진적으로 분할

장점:

상위 레벨 구조 파악에 좋음

단점:

더 복잡하고 비용이 높음
잘 사용되지 않음

3. 밀도 기반 클러스터링 (Density-based)

DBSCAN

원리: 밀도가 높은 영역을 클러스터로 정의 매개변수:

eps: 이웃 반경
min_samples: 최소 점 개수

장점:

임의 모양 클러스터 발견
이상치 자동 탐지
클러스터 수 자동 결정

단점:

매개변수 선택 어려움
밀도가 다른 클러스터 처리 곤란
고차원에서 성능 저하

OPTICS

원리: DBSCAN의 확장, 다양한 밀도 처리

장점:

다양한 밀도의 클러스터 발견
클러스터 구조 시각화

단점:

더 복잡한 매개변수
해석이 어려움

HDBSCAN

원리: 계층적 DBSCAN

장점:

다양한 밀도 자동 처리
더 강건한 클러스터 탐지

단점:

계산 복잡도 높음

4. 격자 기반 클러스터링 (Grid-based)

STING

원리: 공간을 격자로 나누어 처리 장점:

빠른 처리 속도
큰 데이터셋 처리 가능

단점:

격자 크기에 민감
고차원에서 비효율

CLIQUE

원리: 부분공간에서 밀도 기반 클러스터링

장점:

고차원 데이터 처리
부분공간 클러스터 발견

단점:

매개변수 많음
해석 복잡

5. 모델 기반 클러스터링 (Model-based)

Gaussian Mixture Model (GMM)

원리: 가우시안 분포의 혼합으로 모델링 장점:

확률적 클러스터 할당
타원형 클러스터 처리
클러스터 확률 제공

단점:

EM 알고리즘으로 느림
초기값에 민감
클러스터 수 선택 필요

Expectation-Maximization (EM)

원리: 우도 최대화를 통한 클러스터링 장점:

이론적 기반 탄탄
다양한 분포 가정 가능

단점:

수렴 보장 없음
지역 최적값 문제

6. 스펙트럴 클러스터링 (Spectral)

Normalized Cuts

원리: 그래프의 고유벡터를 이용한 클러스터링, kmeans 와 가장 큰 차이는 중심점의 유무

장점:

복잡한 모양 클러스터 발견
이론적으로 우수

단점:

계산 비용 높음
클러스터 수 사전 지정 필요
매개변수 선택 어려움

7. 퍼지 클러스터링 (Fuzzy)

Fuzzy C-means (FCM)

원리: 소프트 클러스터 할당

장점:

중간 영역 포인트 처리
불확실성 정량화

단점:

해석이 어려움
계산 복잡도 높음

8. 최신 딥러닝 기반

Deep Embedded Clustering (DEC)

원리: 오토인코더 + 클러스터링

장점:

고차원 데이터 처리
특성 학습과 클러스터링 동시

단점:

매우 복잡
대량 데이터 필요

Variational Deep Embedding (VaDE)

원리: VAE + GMM

장점:

생성 모델과 클러스터링 결합

단점:

학습이 어려움

알고리즘 선택 가이드

데이터 특성별

구형 클러스터: K-means
임의 모양: DBSCAN, Spectral
계층 구조: Hierarchical
다양한 밀도: HDBSCAN
고차원: Spectral, Deep learning

데이터 크기별

소규모 (<1K): Hierarchical
중간 규모 (1K-100K): K-means, DBSCAN
대규모 (>100K): Mini-batch K-means, BIRCH

요구사항별

빠른 속도: K-means
정확도 우선: Spectral, GMM
이상치 탐지: DBSCAN
확률 정보: GMM
해석 용이: K-means, Hierarchical