Data Analyst Project
[DA 프로젝트] 쿠팡 리뷰 댓글 분석
ParkS2
2025. 1. 30. 00:27
데이터 수집
Listly 로 쿠팡의 리뷰데이터를 수집.
LG 27MR400 모니터 제품의 리뷰를 수집

웹페이지의 필요한 부분만 선택하여 추출
부분+(Parts) 기능을 통해, 원하는 데이터의 특정 부분을 클릭하여 필요한 정보만 추출할 수 있다


데이터 전처리
1. 데이터셋 모두 병합
2. 필요없는 칼럼 제거

3. 결측치 처리

결측치는 주로 라벨8과 라벨9에 있다. 이 라벨들은 리뷰 텍스트가 있는 칼럼으로, 두 칼럼중 하나에 리뷰 텍스트가 있다.
- 라벨 7에서 '신고' 포함된 행 삭제
- 라벨 8에서 '0' 포함된 행 삭제
- 라벨 9에서 'https://phinf.pstatic.net/checkout.phinf'(이미지 링크) 포함된 행 삭제
- 모든 라벨에서 '리뷰가 도움이 되었나요?' 포함된 행 삭제
텍스트 제거
- 라벨 7,8,9에서 '한달사용' 텍스트 제거
- 라벨 7,8,9에서 '재구매' 텍스트 제거
- 라벨 7,8,9 에서 '감사합니다', '만족합니다', '좋습니다', '좋아요', '너무', '정말', '있습니다', '사용하고' 라는 텍스트 제거

데이터 병합
- 정제된 라벨 7,8,9 데이터를 하나의 컬럼으로 통합
4. 칼럼 제거
- 라벨 7,8,9 삭제
5. 라벨에서 날짜 추출
LABEL-5와 LABEL-6 컬럼에서 날짜만 추출하고, 이를 하나의 새로운 컬럼으로 병합

6. 날짜 타입 변환

7. 텍스트 전처리
불필요한 공백 제거
정규식을 활용한 특수문자 제거

8. punkt_tab을 활용해서 문장을 단어 단위로 분리
- punkt_tab 다운로드
punkt_tab :
- 약어 사전(abbrev_types)
- 연어 정보(collocations)
- 문장 시작 단어 정보
- 각 언어별 토큰화 모델

전처리 전

전처리 후

LDA 모델을 활용한 키워드 추출


EDA

- 대부분의 토픽에서 배송 관련 키워드가 공통적으로 등장하며, 이는 배송 서비스가 중요한 평가 요소임을 시사
- 사무용 모니터로서의 활용도가 높게 나타남
- 가격 대비 성능(가성비)에 대한 긍정적인 평가가 많음
- LG 브랜드에 대한 신뢰도가 높게 나타남

- 배송 속도와 가격 대비 만족도에 대한 평가가 주를 이룸
- 실제 사용 후기와 경험담
- 특히 사무용으로서의 적합성 평가가 많이 포함

- 리뷰의 수는 꾸준히 증가하는 것으로 보아, 판매량이 꾸준히 증가한다고 추정할수있다.
- 특히 24년 10월에 리뷰 글 개수가 크게 증가하였다.