[DA 프로젝트] 쿠팡 리뷰 댓글 분석

2025. 1. 30. 00:27Data Analyst Project

데이터 수집

Listly 로 쿠팡의 리뷰데이터를 수집.

LG 27MR400 모니터 제품의 리뷰를 수집

웹페이지의 필요한 부분만 선택하여 추출

부분+(Parts) 기능을 통해, 원하는 데이터의 특정 부분을 클릭하여 필요한 정보만 추출할 수 있다

데이터 전처리

1. 데이터셋 모두 병합

2. 필요없는 칼럼 제거

3. 결측치 처리

결측치는 주로 라벨8과 라벨9에 있다. 이 라벨들은 리뷰 텍스트가 있는 칼럼으로, 두 칼럼중 하나에 리뷰 텍스트가 있다.

  • 라벨 7에서 '신고' 포함된 행 삭제
  • 라벨 8에서 '0' 포함된 행 삭제
  • 라벨 9에서 'https://phinf.pstatic.net/checkout.phinf'(이미지 링크) 포함된 행 삭제
  • 모든 라벨에서 '리뷰가 도움이 되었나요?' 포함된 행 삭제

 

텍스트 제거

  • 라벨 7,8,9에서 '한달사용' 텍스트 제거
  • 라벨 7,8,9에서 '재구매' 텍스트 제거
  • 라벨 7,8,9 에서 '감사합니다', '만족합니다', '좋습니다', '좋아요', '너무', '정말', '있습니다', '사용하고' 라는 텍스트 제거

데이터 병합

  • 정제된 라벨 7,8,9 데이터를 하나의 컬럼으로 통합

4. 칼럼 제거

-      라벨 7,8,9 삭제

5. 라벨에서 날짜 추출

LABEL-5 LABEL-6 컬럼에서 날짜만 추출하고, 이를 하나의 새로운 컬럼으로 병합

 

 

6. 날짜 타입 변환

7. 텍스트 전처리

불필요한 공백 제거

정규식을 활용한 특수문자 제거

정규식을 활용

8. punkt_tab을 활용해서 문장을 단어 단위로 분리

  • punkt_tab 다운로드

punkt_tab :

  • 약어 사전(abbrev_types)
  • 연어 정보(collocations)
  • 문장 시작 단어 정보
  • 각 언어별 토큰화 모델

텍스트에서 특수문자 제거후 punkt_tab 를 활용해서 토근화 진행

전처리 전

 

전처리 후

 

LDA 모델을 활용한 키워드 추출

model.components_ :  LDA 모델이 발견한토픽들의 단어 확률 분포를 담고 있는 행렬

EDA

  • 대부분의 토픽에서 배송 관련 키워드가 공통적으로 등장하며, 이는 배송 서비스가 중요한 평가 요소임을 시사
  • 사무용 모니터로서의 활용도가 높게 나타남
  • 가격 대비 성능(가성비)에 대한 긍정적인 평가가 많음
  • LG 브랜드에 대한 신뢰도가 높게 나타남

  • 배송 속도와 가격 대비 만족도에 대한 평가가 주를 이룸
  • 실제 사용 후기와 경험담
  • 특히 사무용으로서의 적합성 평가가 많이 포함

  • 리뷰의 수는 꾸준히 증가하는 것으로 보아, 판매량이 꾸준히 증가한다고 추정할수있다.
  • 특히 24 10월에 리뷰 글 개수가 크게 증가하였다.