Data Analyst Project

[이커머스] 가중치 RFM 기반 고객 세분화 및 Cohort 분석을 통한 리텐션 증대 전략

ParkS2 2026. 1. 7. 17:55

1. 프로젝트 개요

  • 목적: 이커머스 거래 데이터를 활용하여 고객을 세분화(Segmentation)하고, 각 그룹의 특성을 분석하여 맞춤형 마케팅 전략 및 신규 비즈니스 아이디어를 제안함.
  • 활용 데이터: 고객 정보, 할인 정보, 마케팅 비용, 온라인 판매 내역, 세금 정보 ( 5개 테이블)

데이터

  Customer_info.csv (고객 정보)

  • 내용: 고객의 인구통계학적 정보이다.
  • 주요 컬럼: 고객ID, 성별, 고객지역(도시/), 가입기간(서비스 이용 개월 수)

  Discount_info.csv (할인 정보)

  • 내용: 월별, 카테고리별 적용되는 할인 혜택 정보이다.
  • 주요 컬럼: , 제품카테고리, 쿠폰코드, 할인율(%)

  Marketing_info.csv (마케팅 비용 정보)

  • 내용: 날짜별 마케팅 지출 내역이다.
  • 주요 컬럼: 날짜, 오프라인비용, 온라인비용

  Onlinesales_info.csv (온라인 판매 정보)

  • 내용: 실제 발생한 온라인 거래 내역을 담은 핵심 데이터이다.
  • 주요 컬럼: 고객ID, 거래ID, 거래날짜, 제품ID, 제품카테고리, 수량, 평균금액, 배송료, 쿠폰상태

  Tax_info.csv (세금 정보)

  • 내용: 제품 카테고리별 적용되는 세금(GST) 비율이다.
  • 주요 컬럼: 제품카테고리, GST(세율)

2. 데이터 검증 및 전처리 (Data Preprocessing)

2-1. 데이터 병합 및 결측치 처리

  • 병합(Merge): Onlinesales를 주축으로 고객, 할인, 세금 데이터를 Left Join하여 통합 데이터셋 생성.
  • 결측치 처리

  • 쿠폰 코드 결측치 -> 'unknown' 대체
  • 할인율 결측치 -> 0 대체
  • 배송료: 거래 ID별 중복 발생을 고려하여, 고객별/거래별 첫 번째 배송료만 추출하여 합산 처리.

 

2-2. 파생 변수 생성

  • 지불금액(Monetary): 수량 * 평균금액에 쿠폰 할인율과 GST(세금)를 적용하여 실 지불 금액 산출.
  • 가입년월/가입기간: 기준 시점을 데이터 마지막 날짜 다음날인 2020-01-01로 통일하여 가입 기간 재계산.
  • 최초거래월 & 경과월: 코호트 분석을 위해 고객별 최초 거래 시점과 현재 시점의 차이를 계산.

3. 고객 세분화 (RFM 분석)

단순한 RFM 계산을 넘어, 카테고리 특성과 데이터 분포를 반영한 고도화된 세분화를 수행함.

3-1. 지표 산출 방식

  • Recency (최근성):

 

  • 단순 경과일이 아닌, 제품 카테고리별 구매 주기 가중치를 적용 (예: 노트북은 주기가 길고, 의류는 짧음).
  • 단순히 '마지막 거래일'만 따지면 재구매 주기가 긴 상품(예: 노트북)을 산 고객은 불리할 수 있다. 이를 보완하기 위해 카테고리별 평균 재구매 주기(일수)를 가중치로 산출하여 실제 거래일에 더해주었다. 결과적으로 재구매 주기가 긴 상품을 구매한 고객은 Recency 수치가 낮게(더 최근으로) 보정되어, 상품 특성에 따른 구매 주기 차이를 반영한 공정한 평가가 가능해졌다.
  • Recency 점수를 6단계(0~5점)로 분류.
  • Frequency (빈도) & Monetary (규모):

  • K-Means Clustering(k=5~6)을 시도하였으나 하위 그룹 쏠림 현상 발견.
  • 하위 그룹 내에서 25% 분위수(Q1)를 기준으로 '최하위 집단'을 분리하여 등급을 재조정하는 정밀화 작업 수행.

3-2. 세그먼트 정의 (7개 그룹)

RFM 점수 조합에 따라 고객을 다음과 같이 정의함.

  1. VIP고객: 최근, 자주, 많이 구매한 최상위 고객 (0.1%)
  2. 충성고객: VIP보다는 낮으나 꾸준한 매출 기여자 (1.7%)
  3. 잠재충성고객: 최근 구매했으나 금액이 크지 않음 (14%)
  4. 놓치면안될고객: 과거엔 우수했으나 최근 방문 뜸함 (2%)
  5. 최근신규방문고객: 최근 방문했으나 빈도가 낮음 (30%)
  6. 이탈우려고객: 과거엔 평범했으나 오랫동안 미방문 (16.8%)
  7. 기타: 그 외 (나머지)

4. 데이터 탐색적 분석 (EDA) 및 주요 인사이트

RFM 분석으로 선정한 주요 타겟 세그먼트와 전체 고객 간의 리텐션 차이를 코호트 분석으로 비교

 

4-1. 코호트(Cohort) 및 리텐션 분석

  • 타겟 리텐션: '기타' 그룹을 제외한 타겟 그룹의 리텐션이 전체 평균보다 높음.

  • 가입 기간별: 신규 가입자(1년 미만)의 재거래율이 가장 높으며, 계절적으로 6~8월에 리텐션이 상승함.

 

4-2. 연관 규칙 분석 (Association Rule)

 

  • 전체: Office 제품과 Apparel, Nest-USA 간의 강력한 연관성 확인 (Lift > 1.08).
  • 잠재충성고객: (Office, Bags) 구매 시 Lifestyle 제품을 함께 구매하는 경향이 매우 높음 (Confidence 0.93, Lift 1.05). -> 크로스셀링 포인트

 

4-3. 세그먼트별 심층 분석

 

  • VIP 고객: 대량 구매 패턴을 보이나 주기가 불규칙적임. 특정 카테고리(Drinkware, Office) 선호 뚜렷.

 

  • 최근신규방문고객: 하반기 마케팅 비용 증가와 비례하여 거래량 급증. 마케팅 민감도가 높은 집단임이 증명됨.

 

  • 이탈우려고객: 전체 대비 구매 카테고리 비율이 높았던 4가지의 경우, 모두 이탈우려고객들 사이에서 구매한 비율이 1% 미만으로 나타났고 심지어 하반기에 판매하지 않은 경우도 많다. -> 해당 카테고리로 리타겟팅하는 것은 비효율적임.

 

4-4. 기타 분석 (지역/요일/비회원)

 

  • 지역/요일: 워싱턴DC는 목요일, 뉴욕은 일요일 거래가 많음. /화요일은 전반적으로 거래 저조.

 

  • 비회원: 비회원 구매 후 가입은 했으나 추가 거래가 없는 고객 다수(72)가 마케팅 집중 기간(8월 이후)에 유입됨. 회원 전환 마케팅은 성공했으나 첫 구매 유도가 부족함.

5. 최종 마케팅 전략 제안 (Action Plan)

전략 1: 데이터 기반 타겟 마케팅

  • 잠재충성고객: Office Bags를 함께 구매한 고객에게 Lifestyle 제품 할인 쿠폰 발송 (연관 규칙 기반).
  • VIP/충성고객: Headgear 등 대량 구매 이력이 있는 제품군의 신상품 출시 시 우선 알림 및 얼리버드 혜택 제공.
  • 이탈우려고객: 기존 구매 품목(Apparel ) 보다는 새로운 카테고리나 베스트셀러 위주의 환기성 메일링 시도 (기존 품목 반응률 저조).

전략 2: 시기 및 지역 맞춤형 전략 (MLB & O2O)

    • MLB 시즌 공략: 고객 지역에 MLB 구장이 다수 분포함을 착안.
      • 7월 올스타전, 8월 시즌 하반기에 맞춰 Headgear 카테고리 할인 프로모션 진행 (실제 4, 8월 대량 구매 패턴 확인)
  • 지역 특화 언어유희 마케팅:
    • California: "Cali-FOUR-nia" -> 매월 4일, 4시 타임세일.
    • New Jersey: "New Jersey, New Jeans" -> 배송비 이점 강조 및 의류(Jeans)와 매칭 프로모션.
    • Washington DC: "DisCount" $\to$ 할인율이 높은 클리어런스 세일 집중 지역 선정.

전략 3: 리텐션 및 첫 구매 유도

  • 의류(Apparel) Next-Day 전략: 의류 카테고리 재구매 고객 중 상당수가 '구매 바로 다음 날' 재구매하는 패턴(41% 확률) 발견.
    • -> 의류 구매 익일, 어울리는 액세서리나 하의를 추천하는 푸시 알림 발송.
  • 비회원 및 신규 가입자: 가입 후 거래가 없는 고객(Ghost Member) 대상 '첫 구매 전용 15% 쿠폰' 지급 및 단계별 혜택(첫 달 30%, 다음 달 10%)으로 연속 구매 유도.
  • 요일별 프로모션: 거래량이 가장 낮은 월/화요일에 '게릴라 쿠폰'을 배포하여 주중 매출 방어.

6. 결론

본 프로젝트는 단순한 데이터 요약을 넘어, 변형된 RFM 모델링과 연관 분석을 통해 고객의 숨겨진 니즈를 파악했다는 점에 의의가 있다. 특히 데이터에서 발견한 지역적 특성과 야구장 위치 정보(외부 데이터)를 결합한 창의적인 마케팅 제안은, 실제 비즈니스 환경에서 즉각적인 매출 증대와 브랜드 로열티 강화에 기여할 것으로 기대된다