데이터 분석 아이디어 경진대회(LDA(Latent Dirichlet Allocation) 분석)
데이터 분석 아이디어 경진대회 - 월간 데이콘 - DACON
데이터 분석 아이디어 경진대회 - 월간 데이콘 - DACON
분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.
dacon.io
이전글
데이터 분석 아이디어 경진대회 EDA (tistory.com)
데이터 분석 아이디어 경진대회 EDA
참가자 수: 대부분의 대회에서 참가자 수가 상대적으로 낮은 것으로 보인다. 이는 특정 대회들이 높은 인기를 끌었을 가능성을 시사한다. 일부 대회에서는 매우 높은 참가자 수를 보이며, 이러
ojko.tistory.com

대회 키워드 데이터를 사용하여 주제 모델링을 수행
LDA(Latent Dirichlet Allocation) 모델을 사용하여 대회 키워드 데이터에서 추출한 상위 5개의 주제와 각 주제에 해당하는 상위 10개 키워드


주제 0:
'시계열', 'weighted', '비전', '생육', 'rmse', 'mae', '분석', 'f1', '산업', '아이디어'
이 주제는 시계열 데이터, 비전 분야, 정량적 평가 방법(RMSE, MAE), 아이디어와 관련된 산업 분야를 나타낼 수 있다.
주제 1:
'분류', '알고리즘', 'accuracy', 'logloss', 'nlp', '자연어', 'audio', '과학', '음향', '유사성'
이 주제는 분류 알고리즘, 정확도 평가, 자연어 처리(NLP), 오디오 및 음향 데이터 처리에 초점을 맞춘 것으로 보인다.
주제 2:
'정형', '알고리즘', '회귀', '정성평가', '금융', '분석시각화', '분석', 'rmse', 'mae', 'nmae'
이 주제는 정형 데이터, 회귀 분석, 금융 분야 및 데이터 분석과 시각화에 관련된 내용을 포함한다.
주제 3:
'알고리즘', '분류', 'f1', 'score', 'macro', '언어', '비전', '정형', '탐지', '생성요약'
이 주제는 다양한 알고리즘, 특히 분류 및 언어, 비전 처리와 관련된 주제를 나타낸다.
주제 4:
'cv', '알고리즘', '이미지', '제어', 'map', '데이크루', '서포터즈', '객체', '시계열', '검출'
이 주제는 컴퓨터 비전(CV), 이미지 처리, 객체 탐지와 관련된 기술을 중점적으로 다루는 것으로 보인다.

'competition_info.csv' 파일에서 추출한 경진대회의 키워드 데이터는 다음과 같다:
- 알고리즘 | 정형 | 회귀 | 금융 | RMSE
- 알고리즘 | 정형 | 회귀 | 아파트 | RMSE
- 알고리즘 | 정형 | 회귀 | 스포츠 | WRMSE
- 알고리즘 | 정형 | 회귀 | 매출 | 회귀 | MAE
- 알고리즘 | 정형 | 회귀 | 공공 | SMAPE
이 데이터를 바탕으로 LDA 모델을 적용하면, 다양한 키워드들로부터 주제들이 도출될 것이다. 예를 들어, "알고리즘", "정형", "회귀"와 같은 키워드들은 데이터 과학 및 머신 러닝과 관련된 주제를 나타낼 수 있다. 그 외에도 "금융", "아파트", "스포츠" 등의 키워드는 해당 분야에 특화된 대회들을 나타낼 수 있다.
이러한 분석을 통해, 데이콘 대회가 앞으로 컴퓨터 비전, 자연어 처리, 금융 분석, 시계열 데이터 처리 등 다양한 분야를 포괄하는 대회를 개최할 가능성이 높다는 것을 예측할 수 있다.