[DA 프로젝트] 디지털화가 경제 성장에 미치는 영향에 대한 데이터 분석 (수집 & 전처리)

2024. 12. 30. 21:33Data Analyst Project

데이터 수집

1. Mendeley Data 저장소:

   주요 디지털화 및 경제 성장 지표가 체계적으로 정리된 데이터셋.

2. 세계은행:

  1인당 GDP, 고정 브로드밴드 가입 수, 모바일 셀룰러 가입 수 등 경제 및 사회 지표

3. Thomson Reuters (Refinitives):

   무역 개방성과 투자 지표를 포함한 고품질의 금융 및 경제 데이터

4. OECD 주요 통계 및 기술 지표:

  연구개발(R&D) 지출, 소비자 물가 지수(CPI), 기술 채택 지표 등.

 

데이터 정보 요약
  • Country: 국가 이름. 각 행이 속한 국가를 나타냄.
  • id: 고유 식별자(ID). 각 행을 구분하기 위한 고유값.
  • Year: 연도. 데이터가 수집된 연도.
  • INCOME: 국민 소득. 1인당 또는 총소득.
  • LGDP: 로그 변환된 GDP. GDP 값을 로그 스케일로 표현.
  • FPS: 유선 전화 가입 수 (100인당).
  • MPS: 이동통신(모바일) 가입 수 (100인당).
  • BBS: 초고속 인터넷 가입 수 (100인당).
  • IU: 인터넷 사용률 (% 인구 대비).
  • DDI: 디지털화 지표. 디지털화 수준을 나타내는 복합 지표.
  • GFCF: 고정자본형성총액. 고정자산 투자 규모.
  • TO: 무역 개방도. 수출입 합계로 측정된 경제 개방성.
  • Labor: 노동력. 국내 및 외국인 노동력 합계.
  • LCPI: 소비자물가지수. 물가 변동 지표.
  • LPOP: 인구. 국가 총 인구 수.
  • consum: 정부 소비. 총 정부 지출 규모.
  • RD: 연구개발비. R&D 투자 규모.

International Panel Data Analysis of the Effect of Digitalization on Economic Growth - Mendeley Data

 

International Panel Data Analysis of the Effect of Digitalization on Economic Growth

The effect of digitalization on economic growth is examined with reference to a cobb-Douglas production function. So, the dependent variable is the economic growth measured by the Gross Domestic Product per capita measured at 2015 constant US dollars. To r

data.mendeley.com

 

데이터 전처리

l   ID와 국가 매핑 : 비어있는 행의 국가칼럼을 채우기위 해 ID와 국가를 매핑하고 비어있는 행을 매핑정보를 바탕으로 결측치 채우기

 

l   불필요한 컬럼 제거 : 원본데이터에서 가독성을 위해서 비어놓거나 중복되어있는 칼럼은 제거

l   결측치 처리 : 국가 칼럼이 비어있는 칼럼은 도시 정보에 해당하는 국가를 찾아서 직접 국가 칼럼 채우기

l   rename 메소드를 사용해 제목이 긴 칼럼을 짧게

l   전처리 완료된 데이터는 processed_digitalization_data.csv 로 저장