Data Science Project

[데이콘] 결측치 보간 챌린지 : 월간 데이콘 파일럿

ParkS2 2024. 5. 14. 03:11

결측치 보간 챌린지 : 월간 데이콘 파일럿 - DACON

 

결측치 보간 챌린지 : 월간 데이콘 파일럿 - DACON

분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.

dacon.io

 

이 프로젝트에서는 여러 가지 결측치 보간 방법을 적용하고 비교하여 가장 적합한 방법을 찾는 과정을 진행하였다. 주어진 데이터는 온도를 측정한 단변량 시계열 데이터로, 결측치가 포함되어 있다. 이 결측치들을 다양한 보간 기법을 사용하여 채웠고, 그 결과를 비교 분석하였다.

1. 데이터 준비

먼저, 주어진 시계열 데이터를 불러와 결측치의 위치와 개수를 파악하였다. 이 과정에서 데이터의 기본 통계치를 확인하고, 시각화를 통해 결측치의 분포를 파악하였다.

2. 결측치 보간 기법 적용

다음으로, 다양한 결측치 보간 기법을 적용하였다. 각 방법의 특징과 적용 방법은 다음과 같다:

  • KNN Imputer: 가까운 이웃 알고리즘을 사용하여 결측치를 보간하였다. 이웃의 값을 평균내어 결측치를 채웠다.
  • 선형 보간 (Linear Interpolation): 두 점 사이의 값을 선형적으로 추정하여 결측치를 보간하였다.
  • 선형 회귀 (Linear Regression): 다른 변수들과의 선형 관계를 이용하여 결측치를 예측하였다.
  • LSTM: LSTM 네트워크를 사용하여 시계열 데이터의 장기 종속성을 학습하고 결측치를 보간하였다.
  • MICE (Multiple Imputation by Chained Equations): 여러 번의 보간을 통해 결측치를 채웠다.
  • 스플라인 보간 (Spline Interpolation): 낮은 차수의 다항식을 사용하여 자연스러운 곡선을 그리며 결측치를 채웠다.
  • SVR (Support Vector Regression): 서포트 벡터 머신의 회귀 버전을 사용하여 결측치를 예측하였다.
  • TPOT Regressor: 유전자 프로그래밍을 사용하여 최적의 모델과 파라미터를 자동으로 찾아 결측치를 보간하였다.
  • 다항식 보간 (Polynomial Interpolation): 주어진 데이터 포인트들을 가장 잘 맞추는 다항식을 찾아 결측치를 보간하였다.

결론 도출

각 방법의 성능을 비교 분석하여, 주어진 데이터에 가장 적합한 보간 방법을 선정하였다. 이 과정에서 각 방법의 장단점을 파악하고, 실무에서 어떤 상황에 어떤 방법을 적용할 수 있을지에 대한 인사이트를 얻을 수 있었다.

 

Dataset Info.

  • data.csv [파일]
  • [시나리오] SAMPLE_00000 ~ SAMPLE_62628은 일정한 텀 마다 센서에서 온도를 측정한 데이터이며, 이 과정에서 기기/통신 결함으로 인한 결측이 발생
  • id : 샘플 고유 ID
  • Value : 일정한 텀 마다 센서에서 측정된 온도 값 (°C)
  •  
  • sample_submission.csv [파일] - 제출 양식
  • id : 샘플 고유 ID
  • Value : 결측치를 모두 보간한 온도 값 (°C)

 

 

[배경] 

안녕하세요, 여러분 :) 월간 데이콘 파일럿 : 결측치 보간 챌린지에 오신 것을 진심으로 환영합니다.

 

이번 챌린지는 데이터 분석에서 중요한 한 단계인 결측치 보간에 초점을 맞춥니다.

가상 시나리오로 일정한 간격으로 센서가 온도를 측정한 단변량 시계열 데이터를 다루게 됩니다. 이 데이터는 기기 오류나 통신 문제로 결측치가 포함된 상태입니다.

 

참가자 여러분은 이러한 결측치를 실제 값과 최대한 가깝게 보간하는 방법을 연습하고, 이를 실제와 유사한 상황에 적용하는 경험을 할 수 있습니다. 이 과정은 데이터 전처리의 핵심이며, 분석 결과의 질을 크게 좌우합니다. 따라서, 다양한 상황에 맞는 최적의 보간 전략을 세우는 능력을 개발하는 것이 중요합니다.

 

이 챌린지는 경쟁보다는 학습과 건강한 교류를 중시하여, 모든 참가자가 자유롭게 의견을 나누고, 함께 성장할 수 있는 환경을 제공합니다. 특히, 이번 대회는 데이콘 AI 경진대회 참여에 어려움을 겪었거나 부담을 느꼈던 분들도 부담 없이 참여할 수 있도록 기획되었습니다.

 

데이커 여러분 모두가 결측치 보간에 대한 이해를 깊이 있게 하고, 데이콘 커뮤니티 내에서 활발한 토론의 장이 펼쳐지길 바라며, 이 챌린지가 여러분의 데이터 과학 여정에 의미 있는 발걸음이 되기를 기대합니다. 

 

[주제]

단변량 시계열 데이터의 결측치 보간

 

[설명]

단변량 시계열 데이터에 존재하는 결측치를 최대한 실제값과 유사하도록 보간

 

결측치 보간 챌린지 - 월간 데이콘 파일럿.pdf
0.34MB

 

 

wonderfulawsome/Missing-Value-Interpolation-Challenge (github.com)

 

GitHub - wonderfulawsome/Missing-Value-Interpolation-Challenge

Contribute to wonderfulawsome/Missing-Value-Interpolation-Challenge development by creating an account on GitHub.

github.com