# 화학지문
## 화학지문이란?
- 분자의 특성 유무를 1과 0으로 나타낸 벡터이다.
- 특정 원자의 특성 유무를 나타낸다.
## 확장연결지문(Extended-Connectivity FingerPrint(ECFP)이란?
- 화학지문의 몇가지 유용한 특성을 결합한 피처화 방법으로 임의의 크기의 분자를 고정 길이의 벡터로 변환한다.
- 확장 연결 지문 피처화는 모든 원자를 독립적으로 고려해 원자의 특성, 공유 결합의 수 등을 조사한다. 이렇게 조사된 고유한 조합을 특성이라고 하며, 해당 요소가 존재하면 벡터의 해당 요소가 1의 값을 갖는다. 피처화 알고리즘은 주변을 살펴 해당 원자와 결합된 원자를 찾고 더 큰 새로운 특성 집합을 만들어 벡터의 해당 요소로 사용한다.
## 피처화 알고리즘
- 피처화 알고리즘 중 가장 일반적으로 사용하는 것은 ECFP4알고리즘 이다.
## ECFP의 필요성
- ML모델 사용 : 대부분의 ML모델은 입력값으로 동일크기의 벡터를 사용하므로 확장 연결 지문은 서로 다른 크기의 분자를 갖고
동일한 학습 모델을 사용할 수 있도록 해야 한다.
- 비교용이성 : 확장연결 지문으로 변환하면 서로 비교하기도 쉽다. 두 개의 분자에 대해 일치하는 벡터값들이 많을수록 분자가 유사하다고 간주할 수 있다.
## ECFP의 단점
- 화학지문은 분자에 대한 많은 정보를 담고 있지만 일부 정보는 손실되는 문제점이 있다.
- 두 개의 다른 분자가 똑같은 화학 지문을 갖을 수 있으므로 화학 지문만 주어지면 어떤 분자에서 왔는지를 알아내는 것이 불가능해진다.
# 분자표현자
- 분자 표현자(molecular descriptor)는 분자의 구조를 설명하는 다양한 계산 값을 포함한다. 분배 계수(Log Partion coefficient)나 극성 표면적(Polar Surface area)과 같은 계산 값들은 고전 물리학 또는 화학에서 나온 것이다.
- DeepChem에서는 dc.feat.RDKitDescriptor()를 이용하여 계산할 수 있다.
- 분자 표현자는 상대적으로 분자의 일반적인 특성에 의존하는 것을 예측할 때 가장 잘 작동한다. 하지만 원자의 상세한 배열에 의존하는 특성을 예측하는 데는 효과가 좋지 않다.
# 그래프 합성곱
- 머신러닝 모델에 입력 데이터로 사용하려면 여러가지를 고려하여 분자 데이터를 변환하는 코드를 작성해야 하는데, 머신러닝 모델이 스스로 분자 데이터를 피처화하는 방법을 찾아내야 한다.
## 그래프 합성곱의 장점
- 컴퓨터가 데이터를 피처화함 : 컴퓨터가 데이터에서 스스로 답을 찾아냄
- 합성곱 레이어 : 수직선 or 수평선과 같은 간단한 패턴을 인식(학습모델은 훈련을 통해 스스로 패턴을 찾아냄)
댓글 없음:
댓글 쓰기