Data Science Project
[Dacon] 제2회 신약개발 AI 경진대회
ParkS2
2024. 9. 30. 05:36
제2회 신약개발 AI 경진대회 - DACON
분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.
dacon.io
[배경]
국내 AI 신약개발 생태계를 활성화하고, 신약 연구자들의 연구 의욕을 고취시키며 신약개발에 참여할 젊은 인재를 발굴하기 위해
제2회 신약개발 AI 경진대회 “JUMP AI 2024”를 개최합니다.
[주제]
IRAK4 IC50 활성 예측 모델 개발
[설명]
IRAK4 IC50에 대한 학습용 데이터 1,952종을 이용해 예측모델을 개발
개발한 예측모델로 경진용 평가 데이터를 사용하여 예측한 값을 제출
Dataset Info.
- train.csv [파일]
- ChEMBL IRAK4 IC50에 대한 학습용 데이터 1,952종
- Smiles : 분자구조 데이터
- IC50_nM : 예측 Target
- plC50 : IC50_nM과 동일하지만, 단위가 다름
- test.csv [파일]
- ID : 고유 ID
- Smiles : 분자구조 데이터
- sample_submission.csv [파일] - 제출 양식
- ID : 고유 ID
- IC50_nM : 예측한 IC50 (nM단위)
1. DL Modeling.ipynb
- 딥러닝 모델 정의 및 훈련: 이 노트북에서는 딥러닝 모델을 정의하고, 다양한 딥러닝 모델의 구조와 훈련 과정을 다루고 있다. 주요 내용은 네트워크 정의, 손실 함수 및 옵티마이저 설정, 훈련 루프와 관련된 부분이 포함됨.
2. Feature Engineering.ipynb
- 특성 공학(Feature Engineering): 이 노트북은 데이터 전처리와 특성 공학을 다루며, 데이터셋의 특성을 변환하고 추가적인 피처를 생성하는 작업이 포함되어 있음. 여기에서는 각 열에 대한 전처리 과정과 새로운 피처 추가 방법이 다루어지고 있음.
3. Modeling.ipynb
- 모델링: 이 노트북에서는 여러 모델을 비교하고, 다양한 머신러닝 알고리즘을 활용해 예측 모델을 학습시키고 평가하는 과정이 포함되어 있다. 특히, 랜덤 포레스트와 같은 모델을 사용한 성능 평가가 들어 있음.
4. SQL , EDA.ipynb
- SQL과 탐색적 데이터 분석(EDA): SQL을 사용해 데이터베이스에서 데이터를 추출하고, 데이터의 구조를 살펴보는 EDA 과정을 포함하고 있다. 데이터베이스에서 데이터를 불러와 시각화하거나 통계적인 분석을 진행하는 내용이 주를 이룸.
5. 분자 특성 추출.ipynb
- 분자 특성 계산 및 추출: 이 노트북에서는 SMILES 형식의 분자 데이터를 기반으로 분자 특성을 계산하는 내용을 다루고 있음. 각 분자에 대해 MolecularWeight, LogP, NumHAcceptors, NumHDonors 등의 특성을 계산하고, 새로운 피처로 추가하는 과정을 설명함
wonderfulawsome/-2nd-New-Drug-Development-AI-Competition (github.com)
GitHub - wonderfulawsome/-2nd-New-Drug-Development-AI-Competition
Contribute to wonderfulawsome/-2nd-New-Drug-Development-AI-Competition development by creating an account on GitHub.
github.com