조건부 VAE
조건부 VAE는 잠재 변수 뿐만 아니라 레이블도 디코더에 입력하여 레이블을 지정하는 형태로 데이터를 생성한다.
필기체 숫자 이미지별로 가로와 세로의 잠재 변수 2개를 변화시키며 같은 숫자라도 필기체 숫자 이미지가 바뀌는 것을 알 수 있다. VAE는 기본적으로 비지도학습이지만 지도학습 요소를 추가해 비지도 학습을 실행하면 복원할 데이터를 지정할 수 있다.
조건부 VAE는 특정 필체를 인식하여 다른 문자를 생성하는 것도 가능할 수 있다.
β-VAE
β-VAE는 이미지의 특징을 잠재공간에서 분리(disentanglement, 얽힌 것을 푸는 것)하는 응용기술이다. 예를 들어 얼굴 이미지는 첫번째 잠재 변수에서 눈의 모양, 두번째 잠재 변수에서 얼굴 방향의 특징을 담는다. 잠재 변수의 각 요소가 독립적인 특징을 담는 것이다.
이러한 특징을 이용하면 첫 번째 잠재 변수로 눈의 모양을 조정하고, 두 번째 잠재변수로 얼굴의 방향을 조정할 수 있을 것이다.
VQ-VAE
VAE는 잠재변수가 데이터의 특징을 정확하게 파악하지 못하는 ‘사후붕괴'(posterior collapse)’라는 현상으로 인해 생성된 이미지가 흐릿한 문제가 있다. 이러한 문제를 해결하는 것이 바로 ‘벡터 양자화된 변이형 오토인코더(Vector Quantised-VAE)로서, 잠재 변수를 이산값(0, 1, 2, … 등의 연속되지 않은 값)으로 변환한다. 이는 이미지를 인코더에 입력하고 출력인 잠재 변수의 벡터를 코드북에 매핑해 구현한다.
이와 같이 이미지의 특징을 이산적인 잠재 공간에 압축하면 높은 품질의 이미지를 생성할 수 있다.
VQ-VAE-2
VQ-VAE-2는 VQ-VAE를 계층 구조로 만들어 더 높은 해상도의 이미지를 생성할 수 있게 만든 기술이다. VQ-VAE-2는 잠재 표현의 규모 차이에 따라 계층적으로 학습한다. 이 잠재 표현은 원래 이미지보다 작지만, 디코더에 입력하면 더 선명하고 사실적인 이미지를 재구현할 수 있다.
비교적 큰 크기의 이미지도 VQ-VAE-2에서는 특징을 잘 파악해 잠재 공간으로 압축할 수 있다.
댓글 없음:
댓글 쓰기