Data Science Project

[Dacon] 제2회 신약개발 AI 경진대회

ParkS2 2024. 9. 30. 05:36

제2회 신약개발 AI 경진대회 - DACON

 

제2회 신약개발 AI 경진대회 - DACON

분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.

dacon.io

[배경]

국내 AI 신약개발 생태계를 활성화하고, 신약 연구자들의 연구 의욕을 고취시키며 신약개발에 참여할 젊은 인재를 발굴하기 위해

제2회 신약개발 AI 경진대회 “JUMP AI 2024”를 개최합니다.

 

[주제]

IRAK4 IC50 활성 예측 모델 개발

 

[설명]

IRAK4 IC50에 대한 학습용 데이터 1,952종을 이용해 예측모델을 개발

개발한 예측모델로 경진용 평가 데이터를 사용하여 예측한 값을 제출

 


 

Dataset Info.

  • train.csv [파일]
  • ChEMBL IRAK4 IC50에 대한 학습용 데이터 1,952종
  • Smiles : 분자구조 데이터
  • IC50_nM : 예측 Target
  • plC50 : IC50_nM과 동일하지만, 단위가 다름

 

  • test.csv [파일]
  • ID : 고유 ID
  • Smiles : 분자구조 데이터

 

  • sample_submission.csv [파일] - 제출 양식
  • ID : 고유 ID
  • IC50_nM : 예측한 IC50 (nM단위)

 

1. DL Modeling.ipynb

  • 딥러닝 모델 정의 및 훈련: 이 노트북에서는 딥러닝 모델을 정의하고, 다양한 딥러닝 모델의 구조와 훈련 과정을 다루고 있다. 주요 내용은 네트워크 정의, 손실 함수 및 옵티마이저 설정, 훈련 루프와 관련된 부분이 포함됨.

2. Feature Engineering.ipynb

  • 특성 공학(Feature Engineering): 이 노트북은 데이터 전처리와 특성 공학을 다루며, 데이터셋의 특성을 변환하고 추가적인 피처를 생성하는 작업이 포함되어 있음. 여기에서는 각 열에 대한 전처리 과정과 새로운 피처 추가 방법이 다루어지고 있음.

3. Modeling.ipynb

  • 모델링: 이 노트북에서는 여러 모델을 비교하고, 다양한 머신러닝 알고리즘을 활용해 예측 모델을 학습시키고 평가하는 과정이 포함되어 있다. 특히, 랜덤 포레스트와 같은 모델을 사용한 성능 평가가 들어 있음.

4. SQL , EDA.ipynb

  • SQL과 탐색적 데이터 분석(EDA): SQL을 사용해 데이터베이스에서 데이터를 추출하고, 데이터의 구조를 살펴보는 EDA 과정을 포함하고 있다. 데이터베이스에서 데이터를 불러와 시각화하거나 통계적인 분석을 진행하는 내용이 주를 이룸.

5. 분자 특성 추출.ipynb

  • 분자 특성 계산 및 추출: 이 노트북에서는 SMILES 형식의 분자 데이터를 기반으로 분자 특성을 계산하는 내용을 다루고 있음. 각 분자에 대해 MolecularWeight, LogP, NumHAcceptors, NumHDonors 등의 특성을 계산하고, 새로운 피처로 추가하는 과정을 설명함

wonderfulawsome/-2nd-New-Drug-Development-AI-Competition (github.com)

 

GitHub - wonderfulawsome/-2nd-New-Drug-Development-AI-Competition

Contribute to wonderfulawsome/-2nd-New-Drug-Development-AI-Competition development by creating an account on GitHub.

github.com