2024년 8월 25일 일요일

Neural Graph Fingerprints의 쓸모

Neural Graph Fingerprints는 Fixed Fingerprints대비 몇가지 장점이 있으며 다음과 같다.

Convolutional Networks on Graphs for Learning Molecular Fingerprints 논문에 대한 요약

David Duvenaud† , Dougal Maclaurin† , Jorge Aguilera-Iparraguirre Rafael Gomez-Bombarelli, Timothy Hirzel, Al ´ an Aspuru-Guzik, Ryan P. Adams ´ Harvard University

 

1. Introduction

최근 재료 설계 분야의 연구는 신경망을 사용하여 예제로부터 일반화함으로써 새로운 분자의 성질을 예측하는 기술을 사용하고 있다. 이 작업의 한 가지 어려움은 예측 변수, 즉 분자에 대한 입력이 임의의 크기와 모양을 가질 수 있다는 점이다. 현재 대부분의 머신러닝 파이프라인은 고정된 크기의 입력만 처리할 수 있다는 문제점을 갖고 있다.

최신 기술은 상용 지문 소프트웨어를 사용하여 고정 치수 피쳐 벡터를 계산하고, 이러한 기능을 완전히 연결된 심층 신경망이나 기타 표준 머신 학습 방법의 입력으로 사용하는 것이다. 이러한 공식은 다음 [28, 3, 19]을 따른다. 즉 훈련 중에 분자 지문 벡터는 고정된 것으로 취급되었다.

이 논문에서 우리는 스택의 맨 아래 층(분자 지문 벡터를 계산하는 기능)을 미분 가능한 신경망(입력으로 원래 분자를 표현하는 그래프로 갖음)으로 대체한다. 신경망의 입력값인 그래프에서 정점(vertices)은 개별 원자(atom)를 나타내고 모서리(edge)는 결합(bond)을 나타낸다.

네트워크의 하위 계층은 각 원자와 그 주변에 동일한 로컬 필터가 적용된다는 점에서 컨볼루션이다. 이러한 여러 레이어를 거친 후, 전역 풀링 단계(pooling step)는 분자의 모든 원자의 특징(features)을 결합한다.

 

예측 성능(Predictive Performance)

당면한 작업에 적응하는 데이터를 사용함으로써 기계에 최적화된 지문은 고정 지문보다 훨씬 나은 예측 성능을 제공할 수 있다. 신경 그래프 지문이 용해도, 약물 효능, 유기 광전지 효율 데이터셋에 대한 표준 지문의 예측 성능과 일치하거나 이를 능가한다는 것을 알 수 있다.

 

인색함(Parsimony)

모든 가능한 하위 구조를 겹치지 않게 인코딩하려면 고정 지문이 매우 커야 합니다. 예를 들어 [28]에서는 드물게 발생하는 피쳐를 제거한 후 크기가 43,000인 지문 벡터를 사용했습니다. 구별 가능한 지문은 관련 기능만 인코딩하도록 최적화하여 다운스트림 계산 및 정규화 요구 사항을 줄일 수 있다.

 


해석 가능성(Interpretability)

표준 지문은 각 가능한 조각들을 완전히 명확하게 암호화하며 조각들 간의 유사성에 대한 개념이 없다. 이와 반대로 신경 그래프 지문의 각 특징은 유사하지만 뚜렷한 분자 조각에 의해 활성화될 수 있어 특징 표현의 의미가 더욱 커진다.

 

그림1.

image

왼쪽 : 표준 원형 지문과 신경 그래프 지문의 계산 그래프를 시각적으로 표현한 것이다. 첫째, 지문을 찍는 분자의 위상과 일치하는 그래프를 구성하는데,
노드는 원자를, 모서리는 결합을 나타낸다.
각 레이어에서 그래프의 인접 계층 간에 정보가 흐른다. 마지막으로, 그래프의 각 노드는 고정 길이 지문 벡터에서 하나의 비트를 켠다(turn on).
오른쪽 : 각 작업에 사용된 본드 정보를 포함한 보다 상세한 스케치이다.

 

2. 원형 지문(Circular Fingeprints)

분자 지문에서 최첨단 기술은 확장 연결 원형 지문(ECFP)이다[21]. 원형 지문[6]은 분자 내에 존재하는 하위 구조를 원자-재라벨링(atom-relabeling)에 따라서 변동하지 않도록 인코딩하기 위해 설계된 Morgan 알고리즘[17]의 정교화(refinement) 버전이다.
순환 지문은 이전 계층에 있는 인접 환경의 연결된 피쳐에 고정 해시 함수를 적용하여 각 계층의 피쳐를 생성한다. 이러한 해시의 결과는 정수 인덱스로 처리되며, 여기서 1은 그래프의 각 노드에서 피쳐 벡터가 제공하는 인덱스의 지문 벡터에 기록된다. 그림1(왼쪽)은  이 계산 아키텍처의 스케치를 보여준다.
충돌을 무시한 채 지문의 각 지수는 특정 하부 구조의 존재를 나타낸다.
각 인덱스로 표시되는 하위 구조의 크기는 네트워크의 깊이에 따라 달라진다. 따라서 신경망의 레이어 갯수를 지문의 '반경(radius)'라고 한다.

원형 지문(Circular Fingerprints)은 로컬측면에서 모든 곳에 동일한 작업을 적용하고, 글로벌 풀링 단계에서 정보를 결합한다는 점에서 컨볼루션 네트워크와 유사하다.

 

3. 구별 가능한 지문 만들기(Creating a differentiable fingerprint)

가능한 네트워크 아키텍처의 공간은 크다. 알려진 좋은 구성에서 시작하여 원형 지문(Circular Fingerprints)을 구별할 수 있는 일반화를 고안하였다. 이 절에서는 원형 지문을 통해 각 개별 작업을 구분가능한 아날로그로 대체하는 방법을 설명한다.

해싱(Hashing) : 원형 지문 각 층에 적용되는 해시 함수의 목적은 각 원자와 그 주변 하부 구조에 대한 정보를 결합하는 것이다. 이렇게 하면 아무리 작더라도 조각(fragment)에 변경사항이 존재하면 다른 지문 색인이 활성화된다.
해시 작업을 신경망의 단일 레이어로 대체한다.
매끄러운 함수를 사용하면 국소 분자 구조가 중요하지 않은 방식으로 변할 때 활성화(activations)가 유사해진다.

인덱싱(Indexing) : 원형 지문은 인덱싱 작업을 사용하여 모든 노드의 피쳐 벡터를 전체 분자의 단일 지문으로 결합한다. 각 노드는 피쳐 벡터의 해시에 의해 결정되는 인덱스에서 지문의 단일 비트를 1로 설정한다. 이 풀링과 같은 연산은 임의 크기의 그래프를 고정 크기의 벡터로 변환하는 경우이다. 작은 분자와 큰 지문 길이의 경우 지문은 항상 희소(sparse)하다.
우리는 softmax 연산을 인덱싱의 구별 가능한 아날로그로 사용한다. 본질적으로, 각 원자는 하나의 범주에 속하는 것으로 분류되어야 한다. 이러한 모든 분류 레이블 벡터의 합이 최종 지문을 생성한다. 이 연산은 표준 컨볼루션 신경망의 풀링 연산과 유사하다.

image

그림 2: 원형 지문(왼쪽)과 신경 그래프 지문(오른쪽)의 슈도코드(Pseudocode)
차이는 파란색으로 강조 표시하였다. 미분 불가능한 모든 연산은 미분 가능한 아날로그로 대체된다.

 

Canonicalization

표준화 원형 지문은 각 인접 지역의 원자 순서에 관계없이 동일하다. 이러한 불변성(invariance)은 주변 원자들을 특징에 따라 분류하고 결합함으로써 얻어진다. 우리는 이 정렬 방식을 실험했고 또한 지역 이웃의 가능한 모든 순열도에 지역 피쳐 변환을 적용했다. 표준화의 대안은 합계와 같은 순열 불변 함수를 적용하는 것이다. 단순성과 확장성을 위해 우리는 합계를 선택하였다.

원형지문은 임의의 무게가 큰 신경 그래프 지문의 특수한 경우로 해석할 수 있다. 이는 큰 입력 가중치의 한계에서 tanh 비선형성이 단계 함수에 접근하기 때문이며, 단계 함수는 연결되었을 때 단순한 해시 함수를 형성하기 때문이다. 또한 큰 입력 가중치의 한계에서 소프트맥스 연산자는 인덱싱 연산과 유사한 one-hot-coded argmax 연산자에 접근한다.

알고리즘 1과 2는 이 두 알고리즘을 요약하고 차이를 강조한다. 각 층에서 지문 길이 L과 F 피쳐가 주어졌을 때, 신경 그래프 지문의 파라미터는 각 층에 대해 크기가 F × L인 별도의 출력 가중치 행렬과 각 층에서 크기가 F × F인 숨겨진 가중치 행렬 집합으로 구성된다(유기 분자에서 최대 5개의 결합 수).

4. 실험

우리는 큰 무작위 가중치의 신경 지문이 원형 지문과 비슷하게 동작한다는 것을 증명하기 위해 두 가지 실험을 실행했다. 먼저 원형지문 사이의 거리가 신경지문 기반 거리 간 거리와 비슷한지 여부를 조사해보았다. 그림 3(왼쪽)은 원형 대 신경 지문 사이의 상호간 거리(pairwise distances)에 대한 산점도이다. 지문은 길이가 2048이었고 용해도(solubility) 데이터 집합에서 분자 쌍pairs of molecules)에 대해 계산하였다[4]. 거리는 Tanimoto 유사도 측정법의 연속 일반화(일명 Jaccard)를 사용하여 계산하였다.

image

거리 사이에는 r = 0.823의 상관 관계가 있다. 그림 오른쪽의 점선은 일부 분자 쌍의 경우 이진 ECFP 지문이 정확히 오버랩되는 영역이 없음( 0 )을  보여준다.

두 번째로, 우리는 큰 무작위 가중치를 갖는 신경 지문의 예측 성능과 원형 지문의 예측 성능을 조사했다. 그림 3(오른쪽)은 지문에 대해 선형 회귀 분석을 사용한 용해도 데이터 집합의 평균 예측 성능을 보여준다. 두 방법의 성능은 비슷한 곡선을 따른다. 반대로 작은 무작위 가중치를 가진 신경 지문의 성능은 다른 곡선을 따르며, 실질적으로 더 우수하다. 이는 임의의 가중치에서도 신경 지문의 비교적 원활한 활성화가 일반화에 도움이 된다는 것을 시사한다.

image

그림 3: 왼쪽: 큰 무작위 가중치를 가진 원형 지문과 신경 그래프 지문을 사용하여 측정한 분자 사이의 쌍별 거리 비교.
오른쪽: 원형 지문(빨간색),
큰 랜덤 가중치가 고정된 신경 그래프 지문(녹색),
작은 랜덤 가중치가 고정된 신경 그래프 지문(파란색)의 예측 성능이다.
랜덤 가중치가 큰 신경 그래프 지문의 성능은 원형 지문의 성능과 거의 일치하는 경향을 보여준다.

 

4.1 학습된 특성 검토

신경 그래프 지문이 해석 가능하다는 것을 보여주기 위해 지문 벡터에서 개별 특징(피쳐, features)를 가장 활성화하는 하위 구조를 보여 준다. 원형 지문 벡터의 개별 특징(features)은 다음을 수행할 수 있다.
각각은 하나의 반지름의 조각에 의해서만 활성화될 수 있다. 단, 우발적인 충돌은 예외이다.
이와 반대로 신경 그래프 지문 피쳐는 동일한 구조의 변형으로 활성화되어 해석 용이성을 높이고 피쳐 벡터를 더 짧게 만들 수 있다.

용해도 특성 그림 4는 지문의 가장 예측적인 특징을 최대로 활성화하는 조각을 보여준다. 지문 네트워크는 [4]에서 측정된 것과 같이 용해도를 예측하는 선형 모델에 대한 입력으로 교육되었다. 상단 행에 표시된 특성은 용해도와 양의 예측 관계를 가지며, 용해도의 표준 지표인 친수성 R-OH 그룹을 포함하는 조각에 의해 가장 활성화된다. 아래쪽 행에 표시된 기능은 불용성을 강력하게 예측하며 비극성 반복 링 구조에 의해 활성화된다.

image

그림 4: 용해도 예측에 최적화된 지문을 조사한다. 다음은 지문의 다양한 기능을 가장 많이 활성화하는 분자 조각(파란색으로 강조 표시됨)의 대표적인 예이다.
맨 위 행 : 가장 용해도가 높을 것으로 예상되는 특징(features)

맨 아래 행: 가장 용해도가 낮을 것으로 예상되는 특징(features) 

댓글 없음:

댓글 쓰기

태그

2025년 가열재생방식 가치기반 가치기반학습 가치이터레이션 강화학습 강화학습기초이론 강화학습방법 강화학습종류 개나리 개념 개발업무 최적화 건강 건식전극코팅 검사 검사기 검사장비 검사장비 양산라인 투입 절차 검색엔진최적화 검색키워드 검출율 경쟁력 경험재플레이 고체전해질적용 공부방법 공정간 에너지 흐름 공정내 에너지 절감 기술 과검율 관절 구글검색키워드 군마트 극초박형 셀제조 기계학습 기내반입 기대값 기초용어 나스닥 남녀사랑 냉각시스템 네이버 네이버 검색 키워드 분석 단백질 답변거부능력 더 원씽 덕담 동적계획법 듀얼브레인 드로스 딥시크 레이저노칭 문제점 로봇산업 롤투롤 생산공정 리액트히터 리튬산업 마르코프과정 마르코프의사결정 막걸리 말을 잘하는 방법 멀티 스텝 모델링 메모리 메인내용 메주콩 메주콩파종 멧돌호박 모델기반학습 모델종류 모델프리학습 모듈 모바일 몬테카를로 방법 몬테카를로방법 물류 및 공급망 최적화 물성의 성질 미국 오하이오 미국주가 미국주식 미래기술전망 미래전망 미세플라스틱 미중경쟁 밀도범함수이론 반도체 가격 상승 반사율 방수 배터리 배터리 주요불량 배터리공정 배터리기술 배터리불량 배터리소재 배터리신뢰성 배터리와인공지능 배터리정책 배터리제조 배터리제조신기술 백주 뱀때 버거체인 벨만방정식 병역명문가 보조배터리 보조배터리 기내반입 분석솔루션 불량원인분석 비례적분미분제어 비전 비지도학습 사랑 삼성반도체 새피해 새해인사 새해인사말 생각정리 생각정리기술 생마늘 생산계획 생수 생수페트병 설계최적화 설날인사말 설비고장예측 성심당 성심당온라인 구매 성심당추천빵 셀 스웰링 셀스웰링 셀투팩 소매업 소재개발 소프트뱅크 쇠뜨기 수명예측 수요예측 스마트팩토리 스웰링불량 시간차학습 시계열분석 시뮬레이션 신뢰성 액터-크리틱 양배추 양자컴퓨터 어텐션 어텐션메커니즘 에너지 절감 에너지 절감방법 에너지사용최적화 에너지절감 에너지절감방안 에어드라이어 에피소드 기반 학습 엘지전자 영어 영어 리스닝 예제 오버행불량 오버행불량원인 오프폴리시 온누리상품권 온폴리시 용접 워런버핏 원달러 변화패턴 원달러 환율전망 원엔환율 원인 원자간 상호작용 학습 및 예측 웬디스버거 을사 인간피드백을 통한 강화학습 인공지능 인공지능경쟁 인생 일본금리 일본환율 자발적DR 자이가르닉 효과 장마 재고관리 재생시스템 재활용소재활용 저전압 저축 전자분포 전자의 움직임 전자의분포 전자의움직임 전통시장통통 정식방법 정책기반 정책기반 이터레이션 정책기반학습 정책이터레이션 제사상 제습공조설비 제습효율 제조업 제조에너지절감 제품개발 젠슨황 조합최적화 주식 중국공급과잉 중요샘플링 지도학습 지도학습미세조정 지붕방수 지수평활법 창신메모리테크놀로지 책줄거리 청주 최신배터리기술 최신이슈 최적제어 추정 추천빵 코스모스 콜드 스타트 키워드 분석 탁주 통계적 방법 투자 투자가 투자철학 트럼프2.0 트루시니스 파종 패키징공정 페트병 페트병두께 푸른뱀때 품질관리 피엑스 필요기술 필요지식 하이닉스 학습항목 한국반도체 행복 행위적인공지능 현대차 화합물 물성 확률 효능 효율적인 업무방법 휴머노이드로봇 흡착식 에너 드라이어 흡착식에어드라이어 흡착제 힘의교환 Actor Actor-Critic 강화학습 Actor-Critic학습 Agentic AI AI AI기반품질관리 Air Dryer ARIMA AS재고관리 Attention Attention Algorithm Battery Manufacturing Battery Manufaturing Battery Material Books Books for Beginners to Learn About LLM CATL Cell to Pack confusion matrix Critic CTC CTP CXMT DDR5 Deep Learning Deep Seek DeepSeek Demand Response DFT DIO Double DQN DP DPO DQN Dross DSO Dueling DQN dumplings Dynamic Programming ESS ESS솔루션 EV FFC FFC체결여부 검사 garlic genesis Gongi Graph Enhanced RAG Health Horsetail Hot Areas how to speak well Human Feedback importance sampling Kitchen hoods Korean dumplings Korean Rice Cake Soup Korean Traditional Game Large Language Models LLM LSTM Machine Learning Interatomic Potential Mandy Material Development MDP MLIP MMFF94 Multi-step Modeling New Battery Materials NMP Recovery Nuts PCU Physical AI PID제어 ppm PPO Pre Cooling Unit pre training Precooling Unit Prophet Protein Q-Learning Quality Inspection Data Quality Management RAG Raw Garlic RCU React Heater REINFORCE REINFORCE학습 Reinforcement Learning Reliability Return cooling Unit RL RLHF RORL RUL방법 SARIMA SARSA SCM SCM 핵심 재무 지표 SEO SFT SHAP SHAP로직 small kitchen hoods squd Squid Game Stacking TD학습 Temporal Difference Tener Stack Time Difference Learning truthiness Ttakji Tteokguk VAR ventilations for small spaces Vision Water Z-Stacking