Tech & Traditions: Neural Graph Fingerprints의 쓸모

2024년 8월 25일 일요일

Neural Graph Fingerprints의 쓸모

Neural Graph Fingerprints는 Fixed Fingerprints대비 몇가지 장점이 있으며 다음과 같다.

Convolutional Networks on Graphs for Learning Molecular Fingerprints 논문에 대한 요약

David Duvenaud† , Dougal Maclaurin† , Jorge Aguilera-Iparraguirre Rafael Gomez-Bombarelli, Timothy Hirzel, Al ´ an Aspuru-Guzik, Ryan P. Adams ´ Harvard University

1. Introduction

최근 재료 설계 분야의 연구는 신경망을 사용하여 예제로부터 일반화함으로써 새로운 분자의 성질을 예측하는 기술을 사용하고 있다. 이 작업의 한 가지 어려움은 예측 변수, 즉 분자에 대한 입력이 임의의 크기와 모양을 가질 수 있다는 점이다. 현재 대부분의 머신러닝 파이프라인은 고정된 크기의 입력만 처리할 수 있다는 문제점을 갖고 있다.

최신 기술은 상용 지문 소프트웨어를 사용하여 고정 치수 피쳐 벡터를 계산하고, 이러한 기능을 완전히 연결된 심층 신경망이나 기타 표준 머신 학습 방법의 입력으로 사용하는 것이다. 이러한 공식은 다음 [28, 3, 19]을 따른다. 즉 훈련 중에 분자 지문 벡터는 고정된 것으로 취급되었다.

이 논문에서 우리는 스택의 맨 아래 층(분자 지문 벡터를 계산하는 기능)을 미분 가능한 신경망(입력으로 원래 분자를 표현하는 그래프로 갖음)으로 대체한다. 신경망의 입력값인 그래프에서 정점(vertices)은 개별 원자(atom)를 나타내고 모서리(edge)는 결합(bond)을 나타낸다.

네트워크의 하위 계층은 각 원자와 그 주변에 동일한 로컬 필터가 적용된다는 점에서 컨볼루션이다. 이러한 여러 레이어를 거친 후, 전역 풀링 단계(pooling step)는 분자의 모든 원자의 특징(features)을 결합한다.

예측 성능(Predictive Performance)

당면한 작업에 적응하는 데이터를 사용함으로써 기계에 최적화된 지문은 고정 지문보다 훨씬 나은 예측 성능을 제공할 수 있다. 신경 그래프 지문이 용해도, 약물 효능, 유기 광전지 효율 데이터셋에 대한 표준 지문의 예측 성능과 일치하거나 이를 능가한다는 것을 알 수 있다.

인색함(Parsimony)

모든 가능한 하위 구조를 겹치지 않게 인코딩하려면 고정 지문이 매우 커야 합니다. 예를 들어 [28]에서는 드물게 발생하는 피쳐를 제거한 후 크기가 43,000인 지문 벡터를 사용했습니다. 구별 가능한 지문은 관련 기능만 인코딩하도록 최적화하여 다운스트림 계산 및 정규화 요구 사항을 줄일 수 있다.

해석 가능성(Interpretability)

표준 지문은 각 가능한 조각들을 완전히 명확하게 암호화하며 조각들 간의 유사성에 대한 개념이 없다. 이와 반대로 신경 그래프 지문의 각 특징은 유사하지만 뚜렷한 분자 조각에 의해 활성화될 수 있어 특징 표현의 의미가 더욱 커진다.

그림1.

왼쪽 : 표준 원형 지문과 신경 그래프 지문의 계산 그래프를 시각적으로 표현한 것이다. 첫째, 지문을 찍는 분자의 위상과 일치하는 그래프를 구성하는데,
노드는 원자를, 모서리는 결합을 나타낸다.
각 레이어에서 그래프의 인접 계층 간에 정보가 흐른다. 마지막으로, 그래프의 각 노드는 고정 길이 지문 벡터에서 하나의 비트를 켠다(turn on).
오른쪽 : 각 작업에 사용된 본드 정보를 포함한 보다 상세한 스케치이다.

2. 원형 지문(Circular Fingeprints)

분자 지문에서 최첨단 기술은 확장 연결 원형 지문(ECFP)이다[21]. 원형 지문[6]은 분자 내에 존재하는 하위 구조를 원자-재라벨링(atom-relabeling)에 따라서 변동하지 않도록 인코딩하기 위해 설계된 Morgan 알고리즘[17]의 정교화(refinement) 버전이다.
순환 지문은 이전 계층에 있는 인접 환경의 연결된 피쳐에 고정 해시 함수를 적용하여 각 계층의 피쳐를 생성한다. 이러한 해시의 결과는 정수 인덱스로 처리되며, 여기서 1은 그래프의 각 노드에서 피쳐 벡터가 제공하는 인덱스의 지문 벡터에 기록된다. 그림1(왼쪽)은 이 계산 아키텍처의 스케치를 보여준다.
충돌을 무시한 채 지문의 각 지수는 특정 하부 구조의 존재를 나타낸다.
각 인덱스로 표시되는 하위 구조의 크기는 네트워크의 깊이에 따라 달라진다. 따라서 신경망의 레이어 갯수를 지문의 '반경(radius)'라고 한다.

원형 지문(Circular Fingerprints)은 로컬측면에서 모든 곳에 동일한 작업을 적용하고, 글로벌 풀링 단계에서 정보를 결합한다는 점에서 컨볼루션 네트워크와 유사하다.

3. 구별 가능한 지문 만들기(Creating a differentiable fingerprint)

가능한 네트워크 아키텍처의 공간은 크다. 알려진 좋은 구성에서 시작하여 원형 지문(Circular Fingerprints)을 구별할 수 있는 일반화를 고안하였다. 이 절에서는 원형 지문을 통해 각 개별 작업을 구분가능한 아날로그로 대체하는 방법을 설명한다.

해싱(Hashing) : 원형 지문 각 층에 적용되는 해시 함수의 목적은 각 원자와 그 주변 하부 구조에 대한 정보를 결합하는 것이다. 이렇게 하면 아무리 작더라도 조각(fragment)에 변경사항이 존재하면 다른 지문 색인이 활성화된다.
해시 작업을 신경망의 단일 레이어로 대체한다.
매끄러운 함수를 사용하면 국소 분자 구조가 중요하지 않은 방식으로 변할 때 활성화(activations)가 유사해진다.

인덱싱(Indexing) : 원형 지문은 인덱싱 작업을 사용하여 모든 노드의 피쳐 벡터를 전체 분자의 단일 지문으로 결합한다. 각 노드는 피쳐 벡터의 해시에 의해 결정되는 인덱스에서 지문의 단일 비트를 1로 설정한다. 이 풀링과 같은 연산은 임의 크기의 그래프를 고정 크기의 벡터로 변환하는 경우이다. 작은 분자와 큰 지문 길이의 경우 지문은 항상 희소(sparse)하다.
우리는 softmax 연산을 인덱싱의 구별 가능한 아날로그로 사용한다. 본질적으로, 각 원자는 하나의 범주에 속하는 것으로 분류되어야 한다. 이러한 모든 분류 레이블 벡터의 합이 최종 지문을 생성한다. 이 연산은 표준 컨볼루션 신경망의 풀링 연산과 유사하다.

그림 2: 원형 지문(왼쪽)과 신경 그래프 지문(오른쪽)의 슈도코드(Pseudocode)
차이는 파란색으로 강조 표시하였다. 미분 불가능한 모든 연산은 미분 가능한 아날로그로 대체된다.

Canonicalization

표준화 원형 지문은 각 인접 지역의 원자 순서에 관계없이 동일하다. 이러한 불변성(invariance)은 주변 원자들을 특징에 따라 분류하고 결합함으로써 얻어진다. 우리는 이 정렬 방식을 실험했고 또한 지역 이웃의 가능한 모든 순열도에 지역 피쳐 변환을 적용했다. 표준화의 대안은 합계와 같은 순열 불변 함수를 적용하는 것이다. 단순성과 확장성을 위해 우리는 합계를 선택하였다.

원형지문은 임의의 무게가 큰 신경 그래프 지문의 특수한 경우로 해석할 수 있다. 이는 큰 입력 가중치의 한계에서 tanh 비선형성이 단계 함수에 접근하기 때문이며, 단계 함수는 연결되었을 때 단순한 해시 함수를 형성하기 때문이다. 또한 큰 입력 가중치의 한계에서 소프트맥스 연산자는 인덱싱 연산과 유사한 one-hot-coded argmax 연산자에 접근한다.

알고리즘 1과 2는 이 두 알고리즘을 요약하고 차이를 강조한다. 각 층에서 지문 길이 L과 F 피쳐가 주어졌을 때, 신경 그래프 지문의 파라미터는 각 층에 대해 크기가 F × L인 별도의 출력 가중치 행렬과 각 층에서 크기가 F × F인 숨겨진 가중치 행렬 집합으로 구성된다(유기 분자에서 최대 5개의 결합 수).

4. 실험

우리는 큰 무작위 가중치의 신경 지문이 원형 지문과 비슷하게 동작한다는 것을 증명하기 위해 두 가지 실험을 실행했다. 먼저 원형지문 사이의 거리가 신경지문 기반 거리 간 거리와 비슷한지 여부를 조사해보았다. 그림 3(왼쪽)은 원형 대 신경 지문 사이의 상호간 거리(pairwise distances)에 대한 산점도이다. 지문은 길이가 2048이었고 용해도(solubility) 데이터 집합에서 분자 쌍pairs of molecules)에 대해 계산하였다[4]. 거리는 Tanimoto 유사도 측정법의 연속 일반화(일명 Jaccard)를 사용하여 계산하였다.

거리 사이에는 r = 0.823의 상관 관계가 있다. 그림 오른쪽의 점선은 일부 분자 쌍의 경우 이진 ECFP 지문이 정확히 오버랩되는 영역이 없음( 0 )을 보여준다.

두 번째로, 우리는 큰 무작위 가중치를 갖는 신경 지문의 예측 성능과 원형 지문의 예측 성능을 조사했다. 그림 3(오른쪽)은 지문에 대해 선형 회귀 분석을 사용한 용해도 데이터 집합의 평균 예측 성능을 보여준다. 두 방법의 성능은 비슷한 곡선을 따른다. 반대로 작은 무작위 가중치를 가진 신경 지문의 성능은 다른 곡선을 따르며, 실질적으로 더 우수하다. 이는 임의의 가중치에서도 신경 지문의 비교적 원활한 활성화가 일반화에 도움이 된다는 것을 시사한다.

그림 3: 왼쪽: 큰 무작위 가중치를 가진 원형 지문과 신경 그래프 지문을 사용하여 측정한 분자 사이의 쌍별 거리 비교.
오른쪽: 원형 지문(빨간색),
큰 랜덤 가중치가 고정된 신경 그래프 지문(녹색),
작은 랜덤 가중치가 고정된 신경 그래프 지문(파란색)의 예측 성능이다.
랜덤 가중치가 큰 신경 그래프 지문의 성능은 원형 지문의 성능과 거의 일치하는 경향을 보여준다.

4.1 학습된 특성 검토

신경 그래프 지문이 해석 가능하다는 것을 보여주기 위해 지문 벡터에서 개별 특징(피쳐, features)를 가장 활성화하는 하위 구조를 보여 준다. 원형 지문 벡터의 개별 특징(features)은 다음을 수행할 수 있다.
각각은 하나의 반지름의 조각에 의해서만 활성화될 수 있다. 단, 우발적인 충돌은 예외이다.
이와 반대로 신경 그래프 지문 피쳐는 동일한 구조의 변형으로 활성화되어 해석 용이성을 높이고 피쳐 벡터를 더 짧게 만들 수 있다.

용해도 특성 그림 4는 지문의 가장 예측적인 특징을 최대로 활성화하는 조각을 보여준다. 지문 네트워크는 [4]에서 측정된 것과 같이 용해도를 예측하는 선형 모델에 대한 입력으로 교육되었다. 상단 행에 표시된 특성은 용해도와 양의 예측 관계를 가지며, 용해도의 표준 지표인 친수성 R-OH 그룹을 포함하는 조각에 의해 가장 활성화된다. 아래쪽 행에 표시된 기능은 불용성을 강력하게 예측하며 비극성 반복 링 구조에 의해 활성화된다.

그림 4: 용해도 예측에 최적화된 지문을 조사한다. 다음은 지문의 다양한 기능을 가장 많이 활성화하는 분자 조각(파란색으로 강조 표시됨)의 대표적인 예이다.
맨 위 행 : 가장 용해도가 높을 것으로 예상되는 특징(features)

맨 아래 행: 가장 용해도가 낮을 것으로 예상되는 특징(features)

Tech & Traditions