[머신러닝] Base Ensemble

2025. 7. 1. 19:14카테고리 없음

기본 앙상블 기법들

1. 배깅(Bagging) - Bootstrap Aggregating

작동 원리:

  • 원본 데이터에서 복원 추출로 여러 개의 부트스트랩 샘플 생성
  • 각 샘플로 독립적인 모델 훈련
  • 회귀: 평균, 분류: 다수결 투표로 최종 예측

장점:

  • 과적합 방지 효과
  • 모델의 분산(variance) 감소
  • 병렬 처리 가능

대표 모델: Random Forest

2. 부스팅(Boosting)

작동 원리:

  • 약한 학습기(weak learner)들을 순차적으로 훈련
  • 이전 모델의 오류에 가중치를 두어 다음 모델이 집중하도록 함
  • 최종적으로 가중 투표로 결합

장점:

  • 편향(bias) 감소
  • 높은 예측 성능
  • 점진적 학습

대표 모델: AdaBoost, Gradient Boosting, XGBoost, LightGBM, CatBoost

3. 스태킹(Stacking)

작동 원리:

  • 1단계: 여러 베이스 모델로 예측값 생성
  • 2단계: 메타 모델이 베이스 모델들의 예측을 입력으로 받아 최종 예측

장점:

  • 서로 다른 알고리즘의 장점 결합
  • 높은 성능 가능

단점:

  • 복잡한 구조
  • 과적합 위험

4. 보팅(Voting)

하드 보팅(Hard Voting):

  • 각 모델의 예측 클래스를 다수결로 결정

소프트 보팅(Soft Voting):

  • 각 모델의 예측 확률을 평균내어 결정