1. 고전적 분자 설명자(MD)
정확한 구조/화학 특성(또는 서로 다른 복잡성의 특성 집합)을 하나의 숫자로 인코딩하도록 설계되었다. 따라서 각 설명자를 단독으로 사용하거나 다른 설명자와 함께 사용할 수 있다.
고전적인 설명자는 다양한 측정 척도를 가질 수 있다.
예를 들어,
1) 정수(예: 원자 유형의 이중 결합 및 카운트 수)
2) 이진수(예: 주어진 하위 기관의 존재/부재)
3) 연속 값(예: 분자량)을 가질 수 있다.
MD(Molecular Descriptor)는 다음 단락에서 설명하는 확장, 축소 및 선택 기법에 따라 달라질 수 있다. 대부분의 고전적 분자 설명자는 일반적으로 어느 정도 해석이 가능하며, 어떤 경우에는 구조적 특성 집합(즉, 가역 디코딩)에 다시 매핑하여 복구할 수 있다.
2. 이진 핑거프린트(FP)
이진 핑거프린트(FP)는 분자의 모든 구조적 조각들을 이진 형태로 완전히 표현한다. 핑거프린트는 고전적 분자 설명자와는 달리, 분자 내 특정 하부구조의 유/무를 나타내는 일련의 이진수(비트)로 2D 분자구조에 대한 정보를 인코딩하며 전체로(as a whole) 사용해야만 의미가 있다.
일반적으로 패턴 집합(예: 분지 branched/선형 linear 조각 또는 하위 구조)은 주어진 분자에서 생성되며, 패턴의 존재와 부재는 주어진 길이의 문자열 내에서 각각 "1" 또는 "0"으로 표시된다. 해싱 알고리즘이 종종 적용되어 동일한 비트에서 여러 피쳐가 "충돌"하고, 분자 피쳐와의 일대일 대응성 정도가 손상된다.
핑거프린트를 통해 분자 유사성 및 다양성 계산을 빠르게 계산할 수 있지만 정확한 구조적 특징과 즉시 연결할 가능성은 부족하다.
그럼에도 불구하고 FP로 인코딩된 분자 조각의 빈도는 관찰된 생체 활동 패턴의 기초가 되는 구조적 특징을 해석하는 데 사용할 수 있다.
고전적인 이진 핑거프린트의 변형으로는 조각의 존재여부 벡터가 아닌 분자를 조각차원의 발생빈도에 해당하는 카운트 벡터로 나타내는 카운트 기반 핑거프린트(count-based fingerprints)가 있다. 카운트 핑거프린트는 이진 핑거프린트에 대한 대안으로 인식되어왔지만, 이진 지문에 대한 체계적인 개선은 아직 입증되지 않은 측면이 있다.
댓글 없음:
댓글 쓰기