[데이콘] 제2회 신약개발 AI 경진대회 선행연구 분석

2024. 9. 17. 01:41Data Science Project

  •  

제2회 신약개발 AI 경진대회 - DACON

 

제2회 신약개발 AI 경진대회 - DACON

분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.

dacon.io

 


선행연구

<새로운 인터루킨-1 수용체 관련 키나제-1 억제제를 식별하기 위한 참여 구조 기반 가상 스크리닝에서 인공 지능의 평가>

이 프로젝트의 프로세스는 크게 4단계로 나눌 수 있다:

(1) 가상 스크리닝 프로세스 수행,

(2) 머신러닝 모델 구축,

(3) 생물학적 활성 테스트,

(4) 분자 동역학 시뮬레이션

 

1. 가상 스크리닝 (Virtual Screening, VS)

가상 스크리닝은 대규모 화합물 라이브러리에서 특정 단백질과 결합할 가능성이 있는 화합물을 찾아내는 과정이다.

  1. 데이터 준비:
    • 인간 IRAK1 단백질의 결정 구조(PDB ID: 6BFN)를 사용하여 리간드 결합 포켓을 준비하고, 화합물 라이브러리는 ChemDiv에서 150만 개의 화합물로부터 시작했다.
    • 각 화합물은 화학적으로 처리되어 이온화 상태와 3차원 형태를 준비했다.
  2. 스크리닝 프로세스:
    • 먼저 Lipinski의 5가지 법칙을 사용하여 물리화학적으로 부적합한 화합물들을 필터링한 후, 남은 약 120만 개의 화합물을 대상으로 구조 기반 가상 스크리닝(SBVS)을 수행했다.
    • 리간드 도킹을 통해 화합물들이 단백질의 활성 부위에 어떻게 결합하는지 예측하고, 이 과정에서 도출된 도킹 점수를 기준으로 화합물들을 순위 매겼다.
    • 도킹 점수가 높은 상위 506개의 화합물을 추가 스크리닝하여 최종적으로 353개의 화합물로 압축했다. 이 중 가장 유망한 43개의 화합물을 선택하여 생물학적 활성 테스트로 이동했다.

2. 머신러닝 모델 구축

전통적인 가상 스크리닝에서의 낮은 적중률(2.63%)을 해결하기 위해 인공지능(AI) 기반 머신러닝 모델을 추가하여 스크리닝 결과를 개선했다.

  1. 데이터 수집:
    • ChEMBL 데이터베이스에서 150개의 IRAK1 억제제와 150개의 무작위 화합물을 미끼 데이터로 사용하여 모델을 훈련시켰다.
    • 각 화합물에 대해 도킹 점수, 약리학적 모델 매핑 점수, 분자 설명자(물리화학적 특성) 등의 데이터를 수집했다.
  2. 모델 훈련:
    • SVM(Support Vector Machine), XGBoost, LightGBM 세 가지 머신러닝 모델을 구축하여 분자의 생물학적 활성을 예측했다.
    • 모델의 성능을 비교한 결과, SVM 모델이 가장 우수한 성능을 보였으며, 이를 최종 모델로 선택했다.
  3. 모델 검증:
    • 5겹 교차 검증을 통해 모델의 성능을 확인했고, SVM 모델은 비활성 화합물의 50% 이상을 정확하게 배제하는 능력을 보여 가상 스크리닝의 적중률을 향상시켰다.

3. 생물학적 활성 테스트

가상 스크리닝과 머신러닝을 통해 선택된 화합물들이 실제로 IRAK1을 억제하는지 실험을 통해 검증했다.

  1. 검증 실험:
    • 선택된 43개의 화합물 중 38개가 생물학적 활성 테스트에 사용되었다.
    • **이동성 변화 검정법(Kinase Inhibition Assay)**을 통해 각 화합물이 IRAK1 키나제의 활성을 억제하는 정도를 측정했다. 여기서 화합물 1은 20μM 농도에서 85.5%의 억제율을 기록했다.
  2. 결과 도출:
    • 스크리닝을 통해 가장 강력한 IRAK1 억제제는 화합물 1 (IC50 = 2.25μM)로 확인되었으며, 화합물 2, 3, 4, 5도 각각 중간 정도의 활성을 보였다.

4. 분자 동역학 시뮬레이션 

생물학적 활성 테스트에서 발견된 강력한 억제제들의 결합 모드를 분석하고 안정성을 평가하기 위해 분자 동역학 시뮬레이션을 수행했다.

  1. 시뮬레이션 설정:
    • AmberTools를 사용하여 5ns의 분자 동역학 시뮬레이션을 수행하고, 화합물 1이 IRAK1 단백질과 어떻게 상호작용하는지를 분석했다.
    • 수소 결합의 길이, 자유 에너지, 백본 RMSD(평균 제곱근 편차) 등을 측정하여 결합의 안정성을 평가했다.
  2. 결과 분석:
    • 화합물 1은 LYS_239 및 LEU_291과 안정적인 수소 결합을 형성했으며, 이 결합이 IRAK1 억제에 중요한 역할을 하는 것으로 확인되었다.
    • 또한, 소수성 상호작용과 반데르발스 힘을 통해 단백질의 안정성을 유지하는 것으로 나타났다.

선행연구 2

<분자 도킹, 역학 시뮬레이션 및 3D-QSAR 연구를 사용한 새로운 IRAK4 억제제 설계>

연구 목표

프로젝트의 주된 목표는 IRAK4의 억제제로 사용할 수 있는 새로운 소분자 억제제를 설계하는 것이다. 이를 위해 기존에 활성화된 화합물들을 바탕으로 분자 모델링 연구를 진행하고, 그 결과를 바탕으로 더 강력한 억제제를 설계하고 평가한다.

연구 과정

  1. 분자 도킹 :
    • 화합물과 IRAK4 단백질 간의 결합 모드를 분석하기 위해 도킹 기술을 사용했다.
    • IRAK4 활성 부위와 결합하는 화합물을 찾아내고, 도킹 결과를 통해 각 화합물의 결합 에너지를 평가했다.
    • 도킹된 자세를 분석하여 수소 결합 및 소수성 상호작용을 통해 IRAK4와의 결합을 조사했다.
  2. 분자 동역학 시뮬레이션 :
    • 도킹된 화합물과 IRAK4 단백질의 결합 안정성을 확인하기 위해 50ns 분자 동역학 시뮬레이션을 수행했다.
    • 시뮬레이션을 통해 단백질-리간드 복합체의 구조적 변화를 분석하고, 결합의 지속성과 안정성을 평가했다.
  3. MM-PBSA 결합 자유 에너지 계산:
    • 복합체의 결합 에너지를 계산하여 IRAK4 억제제와의 상호작용을 정량적으로 분석했다.
    • 결합 에너지 분해를 통해 각 잔류물이 결합에 얼마나 기여하는지 확인하고, 억제제 설계에 중요한 잔류물을 식별했다.
  4. 3D-QSAR (Comparative Molecular Field Analysis, CoMFA):
    • IRAK4 억제제의 구조적 특성을 바탕으로 3D-QSAR 모델을 구축했다.
    • 데이터 세트 내에서 가장 활성적인 화합물의 3D 구조를 기반으로 다른 화합물들을 정렬하고, 활성 예측 모델을 생성했다.
    • RF-CoMFA (Region-Focused CoMFA) 기법을 사용해 분자 구조와 생물학적 활성을 연관시키는 모델을 만들었다.
  5. 새로운 억제제 설계:
    • 분석 결과를 바탕으로 더 강력한 IRAK4 억제제를 설계했다.
    • 설계된 억제제는 기존 화합물보다 높은 예측 pIC50 값을 가졌으며, ADMET (흡수, 분포, 대사, 배설, 독성) 특성을 분석하여 약물로서의 가능성을 평가했다.

 

  • 연구 목표: IRAK4 억제제 설계를 목표로, 자가면역 질환 및 암 치료에 사용할 수 있는 새로운 소분자 억제제를 개발한다.
  • 분자 도킹: IRAK4 단백질과 화합물 간의 결합 모드를 분석하여, 각 화합물의 결합 에너지와 상호작용을 평가한다.
  • 분자 동역학 시뮬레이션: 도킹된 화합물과 IRAK4 복합체의 구조적 안정성을 확인하기 위해 50ns 분자 동역학 시뮬레이션을 수행한다.
  • MM-PBSA 결합 자유 에너지 계산: IRAK4와 화합물 간의 결합 에너지를 정량적으로 계산하고, 억제제 설계에 중요한 잔류물들을 식별한다.
  • 3D-QSAR 모델 구축: IRAK4 억제제의 3D 구조와 생물학적 활성을 연관시키는 RF-CoMFA 모델을 통해 활성 예측 모델을 생성한다.
  • 새로운 억제제 설계: 분석된 구조적 정보를 기반으로 기존 화합물보다 더 강력한 IRAK4 억제제를 설계하고, ADMET 분석을 통해 약물로서의 가능성을 평가한다.