[데이콘] 제1회 신약개발 AI 경진대회

2024. 3. 21. 16:01Data Analyst Project

제1회 신약개발 AI 경진대회 - DACON

 

제1회 신약개발 AI 경진대회 - DACON

분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.

dacon.io

 

[배경]

국내 신약 소재 데이터의 공유ㆍ활용을 활성화하고, 창의적이고 혁신적인 AI융합인재를 발굴하기 위해

제1회 신약개발 AI 경진대회 “JUMP AI 2023”를 개최합니다.

 

[주제]

인간과 쥐의 간 대사 효소에 대한 화합물 대사안정성 예측모델 개발

※ “화합물데이터 공유 및 활용” 아이디어 공모전 동시 개최 (링크)

 

[설명]

화합물의 대사안정성 학습용 데이터 3,498종을 이용해 예측모델을 개발

개발한 모델로 경진용 데이터 483종 화합물을 이용하여 대사안정성 예측값을 제출

 

[주최 / 주관 / 후원 / 운영]

  • 주최: 한국화학연구원, 한국생명공학연구원, 한국제약바이오협회
  • 주관: 한국화합물은행, 국가생명연구자원정보센터, 인공지능(AI)신약개발지원센터
  • 후원: 과학기술정보통신부, 보건복지부
  • 운영: 데이콘

 

  • 데이터 수집 및 전처리:
    • 신약 개발 데이터(train.csv)를 불러와 결측치 처리 및 데이터 정규화 등의 전처리 과정 수행.
    • 분자 구조와 관련된 SMILES 문자열과 물리화학적 속성(AlogP, LogD 등)을 분석 가능한 형태로 변환.
  • 탐색적 데이터 분석(EDA):
    • 각 변수의 분포와 이상치를 확인하고, 히스토그램 및 상관관계 분석을 통해 데이터의 주요 패턴을 파악.
    • 분자 특성 간의 상관관계를 분석하여 중요한 특성을 선정.
  • 모델 학습 및 예측:
    • 전처리된 데이터를 사용해 머신러닝 모델(예: Random Forest, XGBoost 등)을 학습.
    • 모델 학습을 통해 신약의 효능 및 물리화학적 속성 예측.
    • 예측된 결과를 바탕으로 테스트 데이터(test.csv)에서 속성을 예측.
  • 모델 성능 평가 및 튜닝:
    • 예측 결과에 대한 성능 평가(예: RMSE, MAE 등)를 수행하고, 성능을 개선하기 위해 모델 튜닝(하이퍼파라미터 조정, 특성 선택 등) 진행.
  • 결과 도출 및 제출:
    • 최종 예측 결과를 도출하여 submission.csv 형식에 맞춰 제출.
    • 모델이 예측한 약물 속성이 실제 신약 개발에 어떻게 기여할 수 있는지에 대한 인사이트 도출.

 

 

 

전체코드

wonderfulawsome/New-Drug-Development-AI-Competition (github.com)

 

GitHub - wonderfulawsome/New-Drug-Development-AI-Competition

Contribute to wonderfulawsome/New-Drug-Development-AI-Competition development by creating an account on GitHub.

github.com