Data Analyst Project

제6회 대구 빅데이터 분석 경진대회[에너지 부문]

ParkS2 2024. 8. 28. 09:28

 

  •  

 

문제정의

 

  • 건축물 에너지 소비 최적화 문제:
    • 건축물의 에너지 소비 패턴 분석을 통한 고효율 및 저효율 건물 식별
    • 클러스터링 기법을 활용한 에너지 소비 유사 건물 그룹화
    • 고에너지 소비 건물의 절감 방안 마련을 위한 데이터 기반 인사이트 제공
  • 신재생 에너지 거래량 예측 문제:
    • 시간대별 신재생 에너지 거래량 예측을 통한 에너지 수급 최적화
    • 시계열 예측 모델을 이용한 거래량 변동성 관리 및 미래 수요 예측
    • 신재생 에너지 수급 안정화 및 효율적 관리

 

문제해결

1. 데이터 이해 및 탐색적 분석 (EDA)

(1) 공공건축물 에너지 소비량 분석

  • 데이터 불러오기: 공공건축물의 에너지 소비 데이터를 CSV 파일로 불러옴.
  • EDA 수행: 각 건물의 특성(지역, 용도, 면적, 냉난방면적, 연간 단위면적당 에너지 소비량 등)을 기반으로 데이터를 탐색함. 결측치가 있는지를 확인하고, 데이터 타입을 확인하는 등의 기초 통계 분석이 이루어짐. 이를 통해 주요 변수 간의 상관관계와 분포를 파악함.
  • 시각화: 데이터의 분포를 파악하기 위해 시각화를 수행함. 예를 들어, 건물의 용도나 지역에 따른 에너지 소비량을 그래프로 표현하고, 건물 유형별 차이를 시각적으로 분석함.

(2) 신재생 에너지 거래량 분석

  • 데이터 불러오기: 신재생 에너지의 시간별 거래량 데이터를 불러옴.
  • EDA 수행: 각 신재생 에너지원(태양광, 풍력, 수력 등)별 거래량의 시간적 변화를 탐색하고, 이를 시각화함. 이를 통해 시간에 따른 패턴이나 계절성 등이 있는지를 확인하고, 데이터의 특성을 파악함.
  • 시각화 및 Tableau 연동: 한글 폰트를 설정한 후 matplotlib과 seaborn을 사용해 시간별 거래량 변화를 시각화하고, Tableau를 통해 보다 풍부한 시각적 분석을 진행함.

2. 데이터 전처리

(1) 공공건축물 에너지 소비량 전처리

  • 결측치 처리: '미제출' 값이 결측치로 변환되고, 분석에 필요한 변수들을 중심으로 결측치가 제거됨.
  • 데이터 변환: 쉼표로 구분된 숫자 데이터를 올바른 형식으로 변환하고, 각 변수의 데이터 타입을 변경하여 분석에 적합하도록 준비함.

(2) 신재생 에너지 거래량 전처리

  • 날짜 및 시간 변환: 거래일과 거래시간을 하나의 datetime 형식으로 결합하고, 거래 시간 중 '24:00:00'을 '00:00:00'으로 수정한 후, 해당 날짜를 다음 날로 처리함. 이후 일별 데이터를 집계해 시계열 데이터로 변환함.

3. 모델 개발 및 분석

(1) 클러스터링 (공공건축물 에너지 소비량)

  • KMeans 클러스터링: 공공건축물의 연간 단위면적당 에너지 소비량을 기준으로 건물들을 클러스터링함. 이 작업을 통해 에너지 소비량이 비슷한 건물들을 그룹으로 묶어 특성을 분석할 수 있음.
  • 결과 분석: 클러스터링 결과를 바탕으로 에너지 소비량이 높은 건물과 낮은 건물의 특징을 파악하고, 이를 통해 효율적인 에너지 관리 방안을 제안할 수 있음.

(2) 시계열 예측 모델 (LSTM & Prophet)

  • LSTM 모델 (신재생 에너지 거래량):
    • 데이터를 시계열 형태로 변환하여 LSTM 모델을 학습시킴. 거래일과 거래시간을 기반으로 미래의 신재생 에너지 거래량을 예측함.
    • 하이퍼파라미터 설정: 임베딩 크기, 노드 수, 배치 크기 등 LSTM 모델의 하이퍼파라미터를 설정하고, 데이터셋을 학습 데이터와 테스트 데이터로 분리함.
    • 모델 학습 및 예측: LSTM 모델을 통해 미래의 신재생 에너지 거래량을 예측하고, 그 결과를 평가함.
  • Prophet 모델 (신재생 에너지 거래량):
    • Prophet 모델은 페이스북에서 개발된 시계열 예측 모델로, 신재생 에너지 거래량의 시계열 데이터를 사용해 미래의 거래량을 예측함.
    • Prophet 모델을 통해 계절성과 추세를 고려하여 미래의 에너지 거래량을 예측하고, 결과를 시각적으로 표현함.

4. 통계분석

  • ANOVA 테스트 수행을 통한 그룹 간 평균 차이 유의성 확인
    • ANOVA를 통해 여러 그룹 간 평균 차이의 통계적 유의미성 확인
    • 인증등급별 에너지 자립률 차이의 유의성 검토
    • 유의미한 차이가 있을 경우 Tukey HSD 테스트로 세부 그룹 간 차이 검토 진행
  • Tukey HSD 테스트 수행을 통한 두 그룹 간 평균 차이 유의성 판단
    • 각 그룹의 평균을 비교하여 두 그룹 간 평균 차이의 유의미성 확인
    • 인증등급별 에너지 자립률 간 차이의 유의미성 검토
    • Tukey HSD 결과를 통해 그룹 간 차이 정도 확인 및 통계적 유의미성 검토
  • 결과 해석을 통한 그룹 간 평균 차이 신뢰 구간 확인 및 유의미성 판단
    • Tukey HSD 결과의 신뢰 구간을 통해 그룹 간 평균 차이의 유의미성 판단
    • 신뢰 구간이 0을 포함하지 않는 경우 유의미한 차이로 간주
    • 인증등급별 에너지 자립률 차이를 바탕으로 에너지 관리 방안 도입 근거 마련

분석결과

 

  • 건축물 에너지 소비 차이:
    • 특정 유형과 지역의 건물이 높은 에너지 소비를 보였으며, 고효율 그룹의 절감 방식을 고소비 그룹에 적용할 수 있는 가능성을 확인.
  • 신재생 에너지 거래량 예측의 활용:
    • 향후 3년간 거래량의 계절적 변동 패턴을 예측하여 신재생 에너지 수급 계획 수립에 유용한 인사이트 제공.
  • 인증 등급별 에너지 자립률 차이:
    • ZEB 인증 등급 간 자립률 차이가 나타났으며, 높은 자립률 그룹의 절감 방식을 다른 그룹에 도입할 수 있는 근거 확인.
  • 정책 개선 근거 마련:
    • 고소비 건물 대상의 에너지 절감 필요성 및 효율화 정책의 필요성을 확인하고, 신재생 에너지 수급과 ZEB 인증 기준 개선을 위한 데이터 기반의 근거 확보.

 

 

 

wonderfulawsome/Big-Data-Analysis-Competition-Energy-Category (github.com)

 

GitHub - wonderfulawsome/Big-Data-Analysis-Competition-Energy-Category

Contribute to wonderfulawsome/Big-Data-Analysis-Competition-Energy-Category development by creating an account on GitHub.

github.com

공공건축물의 신재생 에너지 활용 솔루션.pdf
3.32MB