2024년 8월 23일 금요일

무기화합물의 물성 영향인자

무기화합물의 물성에 영향을 미치는 인자(parameter)를 measure라고 정의한다. 이러한 measure에는 다음과 같은 parameter가 있다.

  • 분자질량 : Molecular compounds
  • 격자에너지 : 이온 화합물의 결합강도에 대한 추정치
  • 중심원자가 낮은 산화수를 갖는 고분자 화합물 : Polymeric compounds with low oxidation number of the central atom
  • 중심금속(M) 및 Terminal Atom( X )의 반지름 비율 : Effect of radius ratio r(M) : r(X) for molecular and polymer structure
  • 반발작용 : 중심원자가 높은 산화수를 갖는 분자 화합물 : Molecular compounds with ihgh oxidation number of the central atom – effect of repusive interactions
  • 분자내부 원자들간 인력작용 : Effect of attractive intermolecular interactions

Seq2Seq

 

Seq2Seq

RNN은 출력이 바로 이전입력까지만 고려하여 정확도가 떨어지는 문제가 발생함
전체 입력 문장을 고려하지 않고 다음 문장을 생성해 내는 문제가 있음 -> Seq2Seq의 등장배경

Seq2Seq모델이란?

2개의 RNN(1D CNN도 가능)으로 구성된 모델
Seq2Seq Network이나 Encoder Decoder Network라고도 부름

Seq2Seq의 추론방식

1) 입력시퀀스 -> 상태벡터
2) 크기가 1인 목표 시퀀스로 시작함
3) 상태 벡터들과 크기가 1인 목표시퀀스를 Decoder에 넣어 다음 문자에 대한 예측치를 생성함
4) 예측치들을 사용하여 다음 문자의 표본을 뽑음(argmax 사용)
5) 목표 시퀀스에 샘플링된 문자를 붙임
6) 시퀀스 종료 문자를 생성하거나 끝 문자에 도달할 때까지 앞의 과정을 반복함

Seq2Seq의 장점

모든 입력에 해당하는 출력이 있는 단일 RNN의 시퀀스 예측과 달리
Seq2Seq모델은 시퀀스 길이와 순서를 자유롭게 하여 두 언어간의 번역과 같은 Task에 이상적임
전체 Input을 살펴본 후, 임의의 Context Vector를 출력함 -> 전체 맥락을 파악함

Seq2Seq 한계

시퀀스의 입/출력 길이에 어떠한 제약도 없다는 것은 사실이지만,
Seq2Seq모델은 LSTM의 한계와 마찬가지로 입력 문장이 매우 길면 효율적으로 학습하지 못하는 문제가 발생함

No module named ‘plotly’ error

 와우. 버그인줄 알고 여러 시간을 보냈다.

원인을 찾느라. ㅠㅠ
왜 오류가 발생하는지 분명히 plotly도 설치를 했는데..
구글에서 검색해보니 다음과 같은 해결책을 찾을 수 있었다.
나와같이 코드파일 명칭을 plot.py로 설정한 분들이 많았나보다. ㅠㅠㅠ
image

VAE에서 파생되는 기술

 

조건부 VAE

조건부 VAE는 잠재 변수 뿐만 아니라 레이블도 디코더에 입력하여 레이블을 지정하는 형태로 데이터를 생성한다.
필기체 숫자 이미지별로 가로와 세로의 잠재 변수 2개를 변화시키며 같은 숫자라도 필기체 숫자 이미지가 바뀌는 것을 알 수 있다. VAE는 기본적으로 비지도학습이지만 지도학습 요소를 추가해 비지도 학습을 실행하면 복원할 데이터를 지정할 수 있다.
조건부 VAE는 특정 필체를 인식하여 다른 문자를 생성하는 것도 가능할 수 있다.

β-VAE

β-VAE는 이미지의 특징을 잠재공간에서 분리(disentanglement, 얽힌 것을 푸는 것)하는 응용기술이다. 예를 들어 얼굴 이미지는 첫번째 잠재 변수에서 눈의 모양, 두번째 잠재 변수에서 얼굴 방향의 특징을 담는다.  잠재 변수의 각 요소가 독립적인 특징을 담는 것이다.
이러한 특징을 이용하면 첫 번째 잠재 변수로 눈의 모양을 조정하고, 두 번째 잠재변수로 얼굴의 방향을 조정할 수 있을 것이다.

VQ-VAE

VAE는 잠재변수가 데이터의 특징을 정확하게 파악하지 못하는 ‘사후붕괴'(posterior collapse)’라는 현상으로 인해 생성된 이미지가 흐릿한 문제가 있다. 이러한 문제를 해결하는 것이 바로 ‘벡터 양자화된 변이형 오토인코더(Vector Quantised-VAE)로서, 잠재 변수를 이산값(0, 1, 2, … 등의 연속되지 않은 값)으로 변환한다. 이는 이미지를 인코더에 입력하고 출력인 잠재 변수의 벡터를 코드북에 매핑해 구현한다.
이와 같이 이미지의 특징을 이산적인 잠재 공간에 압축하면 높은 품질의 이미지를 생성할 수 있다.

 

VQ-VAE-2

VQ-VAE-2는 VQ-VAE를 계층 구조로 만들어 더 높은 해상도의 이미지를 생성할 수 있게 만든 기술이다. VQ-VAE-2는 잠재 표현의 규모 차이에 따라 계층적으로 학습한다. 이 잠재 표현은 원래 이미지보다 작지만, 디코더에 입력하면 더 선명하고 사실적인 이미지를 재구현할 수 있다.
비교적 큰 크기의 이미지도 VQ-VAE-2에서는 특징을 잘 파악해 잠재 공간으로 압축할 수 있다.

후포

 엘지 울진 연수원이 있어서 자주 가보았던 후포이다. 강원도 동해안 해변과 맞닿아 있는 도로는 바다를 바라보면서 마음껃 즐길 수 있는 몇안되는 좋은 드라이브 코스라고 할 수 있다.

image

관동팔경의 하나인 월송정도 볼 수 있다. 바닷가 바로 앞에 썰렁하게 있는 정자이지만 정말 조용하고 사색을 즐기기가 좋았던 곳으로 기억한다.

image

Natural Gradient

 Kakade 의한 내용 : http://www.gatsby.ucl.ac.kr

 

 

I. Natural Gradient

## NG?

- Natural Gradient에서는 Policy가 리만매니폴드(manifold)를 따른다는 가정을 하고 이에 근거하여 계산한 Gradient를 말한다.

- 리만 공간(리만매니폴드)을 기반으로 하여 거리를 계산하는 방법을 Natural Gradient라고 한다.


## 매니폴드

아래 그림에서와 같은 점들을 아우르는 subspace를 의미한다.

clip_image001

 

## 리만매니폴드(Rimannian Manifold)

매니폴드가 각지지 않고, 미분 가능하게 부드럽게 곡률을 가진 면을 의미한다.

Manifold중에서 부드럽게 생긴, 미분 가능한 Manifold를 말한다.

유클리디안에서의 이차미분 = 리만공간에서의 일차미분

 

 

 

## RL에서 natural gradient 유용성

논문 그림에서와 같이 natural policy gradints의 경우 보다 좋은 성능을 보여주고 있음

일반적인 gradient대신에 natural gradient가 학습 성능이 좋다는 것을 실험으로 입증함

clip_image002

 

## Gradient대신 NG Steepest Descent Direction 갖는이유

- Neural Network 에서 가장 경사가 급한 방향은 Natural Gradient인 경우가 된다.

신경망을 사용할 경우 Gradient가 Steepest Direction이 아닌 경우가 많다.

신경망의 Parameter Space가 우리가 보통 생각하는 직선으로 쭉쭉 뻗어있는 Eucidean Space가 아니다.

좀더 일반적으로는 구의 표면과 같이 휘어져있는 공간인 리만공간(Riemannian Space)으로 표현할 수 있다. 이러한 공간에서는 Natural Gradient가 Steepest Direction이 된다.

 

## NPG의 한계

Natural Policy Gradient만으로 업데이트하면 policy의 improvement를 반드시 보장할 수는 없다.

- Policy의 Improvement를 보장하려면 line search를 사용해야만 한다.

 

## FIM(Fisher Information Manifold)

- 리만 공간에 적용 가능한 Positive Definite Matrix 중 하나이다.

Manifold모양이 계속 바뀔때마다 같아야 할 θ간의 거리가 달라져(variant) 버리면Policy 최적화에 어려움을 겪을 수 있으니 이를 Invariant하게 만드는게 좋은데 해결 방법은 Fisher Information Matrix를 G(θ)로 쓰는 것이다.

- NPG에서의 steepest descent direction은 아래와 같다.

clip_image003

위식의 해석은 FIM이라는 Positive-Definite Matrix를 사용하여 리만공간을 고려한 방향 및 크기로 목표함수를 업데이트 한다는 것을 의미한다.

 

## Positive Definite Matrix이란 무엇인가?

- 양의 정부호 행렬

-> Symmetric Matrix ⊃ Positive Definite Matrix

-> 대칭행렬은 실수인 고유값들을 갖는다.

양의 정부호 행렬도 마찬가지로 실수인 고유값들을 갖는데

더 나아가서 고유값들이 모두 양수이다.

- 함수 f(x,y)는 점(0,0)을 제외하고는 모두 다 0보다 큰 값을 갖는경우,

이러한 함수를 양의 정부호(positive definite)라고 한다.

함수값들이 정류점을 제외하고는 양수로 한정되어 있기 때문이다.

양의 정부호(positive definite)인 경우에는 극소점을 갖는다. 이와는 달리 음의 정부호(Negative Definite)인 경우에는 극대점을 갖는다.

 


## NPG 배우기 전에 매니폴드를 배우는 이유?

- Natural Gradient Method는 어떤 파라미터 공간에서의 steepest descent direction을 강조하기 때문에 신경망 학습에 매우 중요한 방법이 된다. 앞에서도 언급하였듯이 신경망 학습에서 Gradient 찾아낸다고 하더라도 제대로 학습이 진행되지 않는 경우가 있다.

왜냐하면 파라미터 공간이 Euclidean 공간이 아니라 리만 매니폴드 공간이기 때문이라고 할 수 있다.

다시한번 언급하지만 리만 매니폴드는 매니폴드가 각지지 않고 미분 가능하게 부드럽게 곡률을 가진 면이라고 생각하면 된다.

 

## 폴리시의 이해

- 폴리시는 파라미터(θ)로 이루어진 함수이다.

- 폴리시는 몇차 함수일까? 보통 굉장히 고차원이고 우리가 어릿속으로 떠올릴 수 있는 차원이 아니다.

 

## 폴리시의 차원

- 강화학습에서 policy는 고차원일 가능성이 높음(다차원 벡터)

- 최적의 폴리시를 찾는 과정에서 대상 폴리시는 조금씩 변함 -> 공간에 흩뿌려진 형태일 가능성이 높음

- 폴리시의 함수를 시각하하기 위해 편의상 3차원으로 떠올려보자.

- 3차원으로 볼 경우 다음 그림과 같을 것이며 각각의 점은 폴리시라고 할 수 있다.

clip_image004

 

매니폴드는 조금씩 점을 이동하면서 유의미한 변화가 나타남을 의미한다.

clip_image005

## 강화학습의 목표

- 성능을 최대화하는 θ를 찾는 것

- 보상을 최대화하는 것

- J(θ) : 성능(목표함수)

- ▽J(θ) -> θ학습 -> J(θ) 최대화

 

 


##
매니폴드란?

- 공간에 흩뿌려진 많은 점들을 아우르는 subspace공간을 의미함

- 많이 접힌 것, 많이 접히면서 점들을 아우르는 것

-> 2d로 만들어 버리면 차원축소(dimensionally reduction)가 됨

- 이렇게 접힌 것을 쫙쫙 펴서 2d로 만들어 버리면 dimensionally reduction이 된다.

-> 물론 완벽한 2d가 되지 않을 수 있지만 국소적으로는 2d가 된다.

 

 


##
매니폴드의 필요성

- 고차원 파라미터를 저차원에서 생각할 수 있음

-> 차원을 축소하면 점들 사이의 상관관계를 더욱 잘 알 수 있음

 


## 매니폴드와
NPG

- NPG는 어떤 파라미터 공간(리만 매니폴드)에서의 가장 하강경사가 급한 방향을 중요하게 생각함

- 리만매니폴드란? 매니폴드가 각지지 않고 미분가능하게 부드러운 곡률을 가진 면이라고 한다.


##
매니폴드의 이해

- 매니폴드를 고려하지 않고 B에서 A1의 거리와 A2의 거리를 비교해보면

유클리드 공간에서의 거리는 B에서 A1까지가 더 가깝다고 여길 것이다.

그러나 리만 공간(매니폴드)을 고려하면 B에서 A2까지가 더 가깝다.

-> 리만공간에서 첫번째 이동한 결과 : 폴리시(A1) = 폴리시(B + 1000)

-> 리만공간에서 두번째 이동한 결과 : 폴리시(A2) = 폴리시(B + 10)

- 기존 차원(유클리디안 공간 해석)에서 볼 경우 B와 A1이 보다 가까운 거리일수있지만

기존과 다른 매니폴드측면(리만 공간 해석)에서 볼 경우 B와 A2가 보다 더 가까운 거리가 된다.

## Covariant(공변량)의 이해

- B와 A1보다 B와 A2가 더 Covariant하다고 할 수 있다.

-> 왜냐하면 리만 매니폴드에서는 B기준으로 볼 때, A2가 A1보다 더 가깝기 때문이다.

-> 리만공간(매니폴드)상에서는 눈으로 보이는 것이 다가 아니다.

 

## 바람직한 Policy 변경 방법

- Policy(B)에서 Policy Gradient를 통해, Policy(B+delta B)로 간것이 Policy(A1)이라면

Policy가 너무 지나치게 바뀜을 느낄 수 있다.

- 따라서 delta B에 0.0001과 같이 작은 수의 스텝 사이즈를 더하여 조금씩 변하게 하여

Policy(B) -> Policy(A2) -> Policy(A1)으로 변경되도록 하는 것이 보다 바람직하다.

clip_image006

 

 

## 매니폴드와 폴리시 그레디언트

- 기준점 B에서 폴리시 그레디언트를 통해 이동한다고 하자.

- 이 경우 A1과 A2가 상대적으로 보다 covariant하다고 정의할 수 있다.

-> 좌측그림으로 판단(유클리드 공간으로 해석)할 때 B기준으로 A1이 더 가깝다고 판단할 수 있으나

매니폴드를 전개하여 판단(리만매니폴드 베이스로 해석)할 때 B기준으로 A2가 더 가깝다고 판단할 수 있다.

-> policy(B+delta B)로 간 것이 Policy(A1)보다는 Policy(A2)가 보다 더 유의미하다고 할 수 있다.


 

## 리만 매니폴드의 개념

1. 리만매니폴드의 정의

- 미분가능한 매니폴드를 리만 매니폴드라고 정의한다.


2. 리만공간과
유클리디안 공간

- 유클리디안 공간에서의 이차미분(곡률) = 리만 공간에서의 일차미분(Natural Gradient)

- 유클리디안 공간에서 보면 곡률을 따르는 일직선은 곡선으로 보인다.

- 유클리디안 공간에서의 이차미분 = 리만공간에서의 일차미분

-> Natural Gradient에서는 Policy가 리만 manifold를 따른다는 가정을 하고

이에 근거하여 Gradient를 계산하며 이 결과를 Natural Gradient라고 한다.

clip_image007

 

III. 요약

## 결론

PPO가 나온 이유를 알기 위해서는 NPG를 알아야 한다.
NPG(2001) -> TRPO(2015) -> PPO(2017)

Natural Gradient에서는 Policy가 리만 매니폴드를 따른다는 가정을 한다.

 

Riemannian Manifold(리만매니폴드)란?  매니폴드중에서도 매니폴드가 각지지 않고 부드럽게 생긴, 미분 가능한 매니폴드이다.

Natural Policy Gradient는 리만공간(굽은공간)에서의 일차미분(일차근사)을 이용하여 Gradient를 계산하고 이를 이용하여 Policy를 업데이트한다.

TBM이란?

TBM은 Tunnel Boring Machine으로 터널을 굴착하는데 사용하는 설비이다.
최근에는 폭약을 사용한 터널굴착이 어려운 구간에 대해 본 설비를 사용하여 공사를 시공하고 있으며 이에 대한 운전최적화 기술에 대한 요구사항이 있다.
아래는 현대 건설에서 개발한 TBM최적운전 시스템에 대한 소개자료이다.

image

RNN의 단점

 

일반적인 신경망과 RNN의 차이점

1. 전결합층은 층마다 다른 가중치를 사용하지만
2. RNN은 모든 시점에서 동일한 가중치를 이용한다.

 

RNN의 문제점

역전파할 때 이전 시점의 출력 기울기를 구하는 데 동일한 가중치를 반복적으로 사용하므로 기울기에 편향이 발생하기 쉽다.

 

기울기 소실

기울기가 0에 수렴해 학습이 진행되지 않는 문제를 말한다.

 

기울기 폭발

기울기가 증가되어 학습이 수렴하지 않고 발산하는 문제를 말한다.

 

기울기 클리핑

기울기 소실과 폭발 문제는 학습을 어렵게 하는 문제를 야기시킨다. 따라서 이에 대한 해결방법이 필요한데 기울기 폭발 문제에 대한 해결방법으로 기울기 클리핑이라는 기술이 있다. 기울기 클리핑은 기울기 크기를 제한하여 기울기 폭발을 억제하는 방법을 말한다.
기울기 클리핑은 기울기 L2 노름(Norm = 제곱합의 제곱근)이 임계값보다 클 경우 다음과 같은 식으로 제어한다.
image
임계값을 기울기의 L2노름으로 나눈 값에 기울기를 곱한 새로운 기울기로 갱신하면 기울기 전체가 일정 값 이상이 되지 않도록 제어할 수 있다.

기울기 소실문제 대응

기울기 소실문제는 LSTM과 GRU의 ‘게이트’ 구조로 해결할 수 있다.

고유값, 고유벡터의 의미

 

벡터란?

벡터란 단어는 많이 들어보았을 것이다. 벡터는 방향(direction), 크기(magnitude)로 구성된 것을 말한다.

 

고유벡터란?

어떤 벡터에 선형변환을 취했을 때, 방향은 변하지 않고 크기만 변환되는 벡터를 의미한다.

 

고유값이란?

고유벡터가 변환되는 “크기”를 의미한다.

예를 들어 고유벡터의 크기가 변한다고 가정하자. 얼마만큼 변화하는지 알 수 있을까?
고유벡터의 크기가 변화한다고 할 때, 해당 벡터의 변화하는 크기를 고유값이라고 한다. 만약 고유값이 2라면, 기존벡터 크기의 2배만큼 길어진 것이고, 고유값이 1/3이라면 기존 벡터 크기의 1/3만큼 줄어든다는 것을 의미한다.

 

Ax의 의미

Ax는 x라는 벡터에 선형변환( A )을 취한 것을 의미한다.
벡터x를 늘리거나 줄이거나 회전시키거나 하는 등 어떠한 “변환( A )”을 취하는 것을 의미한다. 예를 들어 아래 그림에서와 같이 벡터 v는 다양한 변환을 통하여 v1, v2, v3로 변환될 수 있음을 의미한다.

image

 

선형변환( A ) 의 의미

선형변환은 쉽게 말해서 좌표공간 내에서 일어날 수 있는 모든 변환이라고 생각하면 좋다. 예를 들어, 좌표평면에 벡터 하나가 있다고 가정하자. 해당 벡터를 확대하거나, 축소하거나, 회전시키거나, 반사시키는 것은 모두 변환이라고 생각할 수 있다.

Data Augmentation

 데이터를 분석하다보면 애로점 중의 하나가 데이터가 적은 경우이다. 이러한 문제를 해결하기 위해서 데이터 증식을 사용하면 성능을 좀더 높여볼 수 있다. 이와 같은 데이터 증식은 기존 데이터에 적절한 변형을 추가하여 새로운 데이터를 만들어 내는 방법이다.

데이터 증식은 모든 문제를 해결해줄 것인가?
이 방법은 딥러닝의 고질적인 무네인 일반화 문제의 대응책으로 언급이 되지만 근본적인 문제 해결방법은 아니다.

데이터 증식의 장점은 무엇인가?
1. 다양한 데이터를 입력시켜 모델을 보다 견고하게 만들수 있다. 모델을 테스트 하는 경우 더 높은 성능을 기대할 수 있다.
2. 수집된 데이터가 적은 경우에 강력한 힘을 발휘한다.

텐서플로에서는 ImageDataGenerator라는 API함수를 제공한다.
from tensorflow.keras.preprocessing.image import ImageDataGenerator
train_datagen = ImageDataGenerator(horizontal_flip = True,
   vertical_flip = True,
   shear_range = 0.5,
   brightness_range = [0.5, 1.5],
  zoom_range = 0.2,
   width_shift_range = 0.1,
   height_shift_range = 0.1,
   rotation_range = 30,
   fill_mode = ‘nearest’)

width_shift_range : 임의의 크기만큼 너비 방향으로 이동시킨다.
height_shift_range : 임의의 크기만큼 높이방향으로 이동시킨다.
brightness_range : 이미지의 발기 정도를 조정한다.
shear_range : 시계반대방향으로 밀림 강도를 조절한다.
zoom_range : 임의의 비율만큼 이미지를 확대/축소 시킨다.
rotation_range : 이미지를 임의로 회전시킨다.
rescale : 이미지 픽셀값의 크기를 조절한다.
fill_mode : 이미지 변환 시에 새로 생기는 픽셀을 채울 방법을 결정한다.
horizontal_flip : True일 경우 임의로 이미지를 수평방향으로 뒤집는다.
vertical_flip : True일 경우 임의로 이미지를 수적방향으로 뒤집는다.
preprocessing_function : 사용자 정의 전처리 함수 또는 전처리 함수를 적용한다.

배치 정규화 사용순서

 배치 정규화를 사용하는 경우 일반적으로 다음과 같은 순서를 사용하여 모델을 구성한다.

1) Dense 층 또는 Conv2D층
2) BatchNormalization()
3) Activation()

텐서를 통한 표현

 텐서는 배열의 차원을 랭크로 표현한다.

1. 0-D Tensor
랭크는 0으로 스칼라형 데이터에서 주로 사용한다.
예를 들어 0, 1, 2, …이 있다.

2. 1-D Tensor
랭크는 1로 벡터형 데이터에서 주로 사용한다.
예를 들어 [1,2,3,4,5]가 있다.

3. 2-D Tensor
랭크는 2로 행렬형 데이터에서 주로 사용한다.
예를 들어 [[1,2,3,4,5], [1,2,3,4,5]]가 있다.

4. n-D Tensor
랭크는 n으로 n차원 배열에서 주로 사용 한다.
예를 들어 [… [..] …]가 있다.

경사하강법

 신경망은 가중치를 업데이트 하면서 주어진 문제를 최적화합니다. 이때 가중치를 업데이트 하는 방법에는 대표적으로 경사하강법(Gradient Descent)을 사용합니다. 경사하강법은 특정 함수에서의 미분을 통해 얻은 기울기를 이용하여 최적의 값을 차아가는 방법이다.

학습률은 모델의 학습에서 학습속도나 성능에 큰 영향을 미치는 주용한 하이퍼파라미터이다. 경사하강법은 왼쪽이나 오른쪽 점에서 시작하면 지역 최솟값에 빠지 위험이 높다. 따라서 경사하강법은 항상 최적값을 반환한다는 보장을 할 수 없다. 따라서 실제로 모델을 훈련시킬때, 여러가지 학습률을 사용해볼 필요가 있다.

학습률이 너무 높으면 학습이 되지 않을 수 있고, 학습률이 너무 낮으면 학습속도가 아주 늘서 전역 최솟값에 도달하기 전에 학습이 종료될 수 있다.

 

학습률 초기값 설정

학습률의 초기 설정으로는 주로 0.001(1e-3)을 사용한다. 모델이 학습되지 않은 상태라면 큰 학습률에서 시작하고, 어느 정도 학습이 된 경우에는 서서히 학습률을 줄여나가봐야 한다. 또는 학습률을 줄여보다가 급격히 키우고 다시 줄이는 것도 좋은 방법이 될 수 있다.

신경망의 올바른 학습을 위해서는 가중치 초기화(weight initialization)문제도 생각해봐야 한다. 좋은 성능을 얻기 위해서는 올바른 가중치 초기화를 진행해야 한다. 특별한 경우가 아닌 이상, 케라스가 제공하는 기보 초기화 설정을 사용해도 큰 문제가 되지 않을 것이다. 대표적으로는 Glorot(Xavier), he, Lecun 초기화가 있으며 tf.keras.initializer에서 확인해 볼 수 있다.

딥러닝에서 과대적합 피하기

 딥러닝에서 과대적합을 방지할 수 있는 방법은 여러가지가 있다. 물론 이러한 방법은 단지 예방책일 뿐이지 과대적합 문제를 100% 해결해주지는 않는다.

 

규제화 함수 사용하기란?

규제화함수(Regularizer)는 임의로 모델의 복잡도를 제한시키는 것을 의미한다.

 

규제화 함수

대표적인 규제화 함수에는 L1 노름, L2 노름, L1 노름과 L2노름을 혼합한 엘라스틱 넷(Elastic Net)이 있다. 딥러닝 분야를 다루는 많은 논문에서 이러한 방법을 가중치 감쇠(Weight Decay)라고 표현하기도 한다.

 

keras함수

tensorflow.keras.regularizers.l1(l=0.01) – 가중치의 절댓값합
tensorflow.keras.regularizers.l2(l=0.02) – 가중치의 제곱합
tensorflow.keras.regularizers.l1_l2(l1=0.01, l2=0.01) – (혼합) 절댓값합+제곱합

이와 같은 규제화함수는 기능에 맞게 가중치으 ㅣ합을 구하여 손실함수에 더해주는 형태로 하여 과대적합을 피할 수 있도록 한다. 예를 들어 l2규제화함수는 가중치의 제곱합을 구한 뒤, 이를 손실함수에 더해준다.

 

드룹아웃

학습이 진행되는 동안 신경망의 일부 유닛을 제외(드롭, drop)하는 방법을 통하여 과대적합을 방지하는 기술이다.
이 방법을 도입함으로써 신경망 모델은 제외한 유닛 대신에 제외하지 않은 유닛을 집중적으로 학습할 수 있게 된다. 이를 통하여 과대적합 문제를 방지함과 동시에 더 나은 성능을 기대할 수 있다. 즉 선택과 집중을 통하여 모델링의 성능을 향상시키는 방법에 해당한다.

일반적으로 드롭아웃 비율(dropout rate)은 0.2~0.5를 사용한다.

과대적합을 방지하는데 있어 드롭아웃은 매우 강력한 방법이다. 하지만 드롭아웃을 도입하면 학습 속도가 느려지는 단점이 존재한다.

 

배치정규화

과대적합을 피하기 위한 또다른 방법으로 배치 정규화가 있다. 논문에서 언급하기를 배치 정규화(batchnormalization)는 내부 공선성(internal covariance shift)을 해결하기 위해 고안되었다고 설명하고 있다.

신경망층의 출력값은 다양한 입력 데이터에 따라 수비게 변할 수 있는데, 매우 큰 범위의 출력값은 신경망을 불안정하게 하여 성능을 저하시키는 문제가 발생한다. 배치정규화는 신경망층의 출력값이 가질 수 있는 범위, 즉 출력값 분포의 범위를 줄여주어 불확실성을 어느 정도 감소시키는 방법이다.

 

배치정규화의 장점

1) 기존 신경망은 높은 학습률을 사용하는 경우, 그래디언트 손실/폭발의 문제점이 존재한다. 하지만 배치 정규화를 사용하면, 이러한 문제점을 방지할 수 있어 높은 학습률을 사용하여 빠른 속도로 학습을 진행할 수 있게 한다.
2) 배치 정규화는 자체적인 규제효과가 있기 때문에, 과대적합 문제를 피할 수 있게 한다. 다만 이같은 장점은 도움이 될 뿐 보장하지는 않는다. 이를 사용하면 별도의 규제화 함수나 드룹하웃을 사용하지 않아도 된다라는 의견이 다수이다.

model.add(BatchNormalization())

풀링(Pooling) 연산

 

풀링연산이란?

CNN에서는 Stride, Padding을 통하여 정리된 데이터를 갖고 풀링연산을 실행한다.
풀링연산은 2*2 스트라이드와 2*2 윈도우 크기를 사용하여 특징맵 크기를 절반으로 줄이는 역할(down sampling)을 하는 연산방법이다.

 

풀링연산의 종류

1) 평균풀링(Average Pooling) : 평균값을 사용하는 연산
2) 최대풀링(Max Pooling) : 최대값을 사용하는 연산

1    2   
6    7
Max Pooling --> 7

7   2
1   6
Max Pooling --> 7

풀링연산의 역할

1) 모델이 물체의 주요한 특징을 학습할 수 있도록 도와준다.
2) 컨볼루션 신경망이 이동불변성(translation or shift invariant) 특성을 갖도록 한다.
3) 모델의 파라미터 수를 줄여주어, 계산속도 향상 및 과대적합 문제에 노출될 위험을 줄여준다.

 

자주 사용하는 풀링방법

일반적으로 평균풀링보다는 최대풀링방법을 사용한다. 어떤 물체의 존재 여부를 알기 위해서는 가장 명확한 특징값을 사용하여 학습하는 것이 좋다고 알려져 있기 때문이다.

 

최대풀링층을 사용하는 것으 추천방안

최대풀링층이 강한 특징값을 뽑아냄과 동시에 특징맵의 크기를 줄여 다운샘플링을 해주기 때문에 컨볼루션층에서는 가급적이면 정보를 보존하는 것이 좋다. 따라서 이를 위해서는 1*1 스트라이드 사용하는 것이 좋다.

컨볼루션 필터

 컨볼루션층에서는 “필터”라는 개념을 사용한다.

필터는 무엇인가? 이에 대해서 알아보자. 사진관에서 증명사진을 찍게 되면 해당 사진을 갖고 뽀샵처리를 한다. 이러한 뽀샵처리 프로그램은 원본 사진이미지를 갖고 특정한 연산을 수행하기 때문에 이쁘고 잘생긴 얼굴사잔이 나오게 되는 것이다. 이러한 역할을 하는 연산 알고리즘을 필터(Filter)라고 한다고 보면 될 것이다.

이미지를 변형해주는 역할을 하는 것이 “이미지 필터”라고 정의한다면, 이미지를 인식하기 위한 역할을 하는 것은 “컨볼루션 층의 필터”라고 정의할 수 있다.

이미지를 인식하기 위해서는 여러가지 변형된 사진을 갖고 있어야 한다. 일반적으로 한가지 사진정보만을 갖고 판단을 하는 것보다는 여러가지 다양한 사진을 갖고 판단을 한다면 보다 정확한 결과를 얻을 수 있을 것이기 때문이다.

신발 이미지 사진을 갖고 있다고 하다. 신발의 가장자리를 검출하기 위한 방법은 여러가지가 있을 것이다. 일반적으로 이미지 인식 방법에서는 이미지 필터를 사용하여 가로경계선과 세로경계선을 인지해낼 수 있다. 이미지의 가장자리 검출(Edge Detection)을 위해 사용하는 필터로는 소벨필터(Sobel Filter)이 있다. 소벨필터를 이용하면 신발사진에서 쉽게 가장자리를 검출해낼 수 있다. 하지만 우리가 가장자리 검출이 목적이 아니라 신발사진에서 특정한 특징을 검출하고자 한다면, 이에 부합하는 필터를 찾아내야 한다. 이러한 작업은 오랜 시간이 걸릴 것이다. 물론 최악의 경우 이를 위한 필터를 못찾게 되는 경우도 있을 것이다.

다시 딥러닝 기반 사물인식 문제를 해결하기 위해서는 우리가 필요한 것은 컨볼루션 필터이다. 하지만 딥러닝에서는 컨볼루션 필터를 직접 정의할 필요가 없는 장점이 있다. 이렇게 직접 정의할 필요가 없는 이유는 학습을 통하여 컨볼루션 필터의 파라미터를 직접 찾아낼 수 가 있기 때문이다. 이외에도 여러 개으 ㅣ필터를 사용하여 다수의 특징을 학습하고 인식할 수 있는 장점이 있다.

컨볼루션 층을 사용하는 이유

 여러가지 이유가 있을 것이긴 하지만 한마디로 말하면 완전연결층이 갖고 있는 문제점 때문이라고 할 수 있다. 이를 극복하기 위해서이다.

완전연결층은 1차원 배열의 형태로 구성된 데이터를 통하여 학습하는 경우에 사용한다.
이러한 완전연결층의 단점은 다음과 같다.
1. 단순히 데이터를 펼쳐서 사용하기 때문에 각 이미지 픽셀의 관계를 고려하지 않는다.
2. 2차원 배열 형태의 데이터를 1차원 배열 형태의 데이터로 변환하면서 본래 데이터의 특징을 잃어버리게 된다.

 

완전연결층을 이용하면 “공간정보”를 손실하는 문제가 발생한다.

햄버거 이미지를 입력하면 햄버거 패티, 치즈, 양상추 등을 학습하는 것이 보다 강건한 모델링 학습이 될 것이다. 하지만  완전연결층을 이용하면 의도한 것과는 달리 햄버거 전체(전역적 특징)을 학습하게 된다. 이러한 경우 어떠한 문제가 발생할까?
햄버거 전체를 학습해버리는 방법을 이용하여 햄버거를 인식하는데 사용한다고 가정하자. 우리는 햄버거의 구성이 동일하지만 패티의 위치가 달라진다고 하더라도 동일한 햄버거로 인식할 수 있다. 하지만 완전연결층을 이용하여 학습하는 경우 패티의 위치가 달라지면 다른 햄버거로 인식할 수 있는 문제점이 발생한다.

 

완전연결층을 고집하여 사용하겠다면?

완전연결층을 고집하여 사용한다면 해결방안은 은닉 유닛 수를 늘리면 된다. 하지만 이렇게 하면 급격히 증가하는 파라미터의 수로 인하여 과대적합 문제가 발생할 수 있다.

 

완전연결층의 문제를 해결하려면?

완전연결층의 문제를 해결하기 위해서는 바로 컨볼루션층이 필요하다. 컨볼루션 층은 이미지 픽셀사이의 관계를 고려하기 때문에, 햄버거 패티, 치즈, 양상추 등의 지역적인 특성을 학습할 수 있고 이를 통하여 햄버거를 제대로 인식할 수 있다. 즉 컨볼루션 층은 특징사이의 관계를 인식할 수 있도록 학습하게 되는데 이를 “공간정보를 유지한다”고 표현한다. 또한 각 필터의 파라미터가 공유되기 때문에 완전연결층에 비해 적은 수의 파라미터가 필요하다.

프리커서(Precursor)

 

1. 프리커서란?

프리커서(Precursor)는 우리말로 전구체라는 뜻이며, 반도체 분야에서는 반도체 소자를 제조하기 위한 공정 중 박막을 증착하기 위한 용도로 사용되는 물질이다.
화학적인 관점에서 보면 유기금속 화합물로 분류할 수 있는 물질에 해당한다.
프리커서는 특정한 화합물을 합서하기 위해 필요한 소재로서 특별한 단계를 거치기 이전 상태의 소재라는 의미를 갖고 있다. 일반적으로 CVD공정을 진행할 때 주입하는 gas는 reactant와 precursor가 있다. 두가지 gas를 주입하여 박막을 형성하는 반응을 일으키는 것이다.

2. 프리커서에 대해 편하게 이해해보자.

일반인에게 ”박막을 증착한다”는 말은 너무 어렵다. 보다 쉽게 알아보도록 하자. 반도체 제조공정은 마리 집을 짓는 과정과 같다. 설계를 하고 바닥을 다지고 집의 구조를 쌓아 올려 집을 완성한다고 할 수 있다.
이와 같이 집을 짓기 위해 벽돌을 쌓아 올리는 과정을 박막증착이라고 하고, 프리커서는 벽돌과 같이 쌓아 올리는 재료로 이해하면 좋을 것이다.

3. 유전율이란?

저유전율(low-k)과 고유전율(high-k)의 경우 단순하게 보면 k값=4를 기준으로 하여 구분한다.  즉 4이하의 k값을 갖는 물질을 저유전율을 갖는 물질이라고 하고, 4이상의 k값을 갖는 물질을 고유전율을 갖는 물질이라고 한다.
k값에 따라서 구분을 한다고 하지만, 두 물질 모두 다 절연막이라는 측면에서는 동일한 특징을 갖는 물질이다.  다만 k값에 따라 물질이 전하를 저장할 수 있는 정도가 다르다는 특징을 갖고 있다는 점을 이해하고 있으면 된다.
현재 DRAM의 capacitor물질로는 당연히 고유전율을 갖는 물질이 사용된다. 이는 k값의 수치가 높을수록 전하를 더 많이 저장할 수 있는 특성을 갖기 때문이다.

4. Capacitor이란?

전기를 저장할 수 있는 소자, 일명 축전기라고 한다. 배터리와는 다르게 전기 용량이 작아 충방전 시간이 짧다. Capacitor는 이러한 특성을 이용해 전기적 신호를 주거나 데이터를 저장하는데 활용된다.

5. 저유전율을 갖는 물질은 어디에 사용되는가?

저유전율 물질은 주로 배선사이의 절연막 증착을 위해 사용된다고 이해하면 좋겠다. 왜냐고? 절연막은 배선과 배선 사이에 위치한다. 따라서 그 자체가 capacitor와 같은 현상을 야기시켜 배선에서의 전하 이동속도를 저하시키는 원인이 되기 때문이다. 따라서 저유전율을 갖는 물질이 필요하다.
반도체 공정이 미세화 될수록 capacitor의 구동을 위하 ㄴ정전용량을 확보하고 누설전류를 줄여야 하기 때문에 특성이 좋은 전구체를 사용해야 한다.

6. 특성이 좋은 프리커서란?

1) 상온에서 액상이어야 한다.
상온에도 보관해야 하기 때문에 안정성을 갖춘 물질이어야 한다.

2) 낮은 위험성과 유해성을 갖어야 한다.
공정에 활용되어야 하기 때문에 위험성/유해성이 낮은 물질이어야 한다.

3) 우수한 열안정성을 갖고 있어야 한다.
공정온도의 다양성을 위해 열적 안정식도 갖춘 물질이어야 한다..

4) 증착시 우수한 박막의 특성을 갖어야 한다.

5) 고휘발성, 저점도를 갖어야 한다. 휘발성과 점소와는 Trade-off관계를 갖는 물성이기 때문에 동시에 개선을 하는 것이 어렵다.
Gas상태로 주입을 해야 하고 Substrate표면에 도달해서 반응을 할 때까지 gas상태로 유지가 되어야 하기 때문에 ‘휘발성’을 갖춘 물질이어야 한다. 즉 초기 상태가 고체이면 승화하기 어렵기 때문에 액체/기체 상태이어야 한다.

6) 간단한 구조와 쉬운 합성 sheme를 갖어야 한다.

7) 순도높은 박막을 얻기 위해서 고순도 물질이라는 조건을 갖추어야 한다.

7. 예제

대표적으로 ALD에서 설명을 드렸던 A가스와 B가스가 있다고 하자. 1차로 주입하는 A가스가 precursor(전구체)이고, 2차로 주입하는 B가스가 reactant이다.

소재 물성 예측 ML 모델링

 M/L을 이용하여 소재의 물성을 예측하기 위해서는 분자구조를 숫자로 이루어진 매트릭스 형태로 변환해야 한다. 이를 위한 방법은 다음과 같다.

다양한 방법이 있으며 각각의 방법별로 장단점이 있다고 할 수 있다. 최근에 이러한 방법을 이용하여 적용논문이 있으며 해당 논문을 찾아 읽어보기 바란다.

Atomic Composition
image

Coulomb Matrix
image

Coulomb Matrix 계산값 예제(self interaction 포함)image

image

Sorted Coulomb Matriximage

Coulomb Eigenspectrum
image

노광공정

 

EUV와 ArF란?


웨이퍼에 전자 회로를 새기는 반도체 노광 공정에서 사용하는 빛의 파장 이름이다.
EUV보다는 ArF가 보편적이며, EUV는 ArF보다 개선된 방식이다.

image

EUV란?

ArF보다 개선된 방식이다.
파장의 길이가 더 짧아 13.5nm 수준이다.
7nM이하 시스템반도체 생산라인에서 처음 활용을 시작하였다.

현재 시장현황

메모리 반도체도 집적도가 향상되고 있다.
낸드플래시와 달리 D램은 적층이 어렵다.
즉 회로 선폭을 줄여 성능과 효율을 높여야 한다.

 

회로의 물리적 거리가 가까워지면 뭐가 좋아지나?

1) 신호처리 속도 향상
2) 동작전압 및 대기전압 감소
3) 웨이퍼당 D램 생산량 증가

 

EUV장비 도입은?

도입 및 활성화는 시간문제이다.
하지만 좋은 기술이더라도 대중화에 성공하는 것은 아니다.
왜냐하면 EUV는 네덜란드 ASML만 제조하므로 생산대수가 상당히 제한적인데다가 고가(1500억원 이상)이다.
장비를 교체하면 새산라인 재구성과 안정화가 필수적이며 이는 곧 수율(반도체 제조사 수익성)과 직격되는 문제가 있다.

 

EUV도입한 한국 기업

삼성전자와 SK하이닉스는 EUV를 도입했다. 10나노급 4세대(1a) D램부터 EUV공정을 활용하기로 했다. 회로 선폭은 13nm내외다. 모든 회로를 EUV로그리는 것은 아니다. 일부 레이어만 담당하며 연내 양산할 예정이다.
아직까지는 선제적으로 EUV를 도입한 효과가 나타나기 어렵다. EUV의 진정한 효과는 5세대, 6세대 등으로 넘어가면서 차이가 발생할지 눈여겨 보아야 한다.

배치크기와 딥러닝

 

배치 크기(Batch Size)

배치 크기는 모델 성능과 훈련 시간에 큰 영향을 미친다. 큰 배치 크기를 사용하는 것의 주요 장점은 GPU와 같은 하드웨어 가속기를 효율적으로 활용할 수 있다는 점이다. 따라서 훈련 알고리즘이 초당 더 많은 샘플을 처리 할 수 있다. 가장 좋은 방법은 GPU RAM에 맞는 가장 큰 배치 크기를 사용하는 것이다. 하지만 실전에서 큰 배치 크기를 사용하게 되면 훈련 초기에 종종 불안정하게 훈련될 수 있다. 결과적으로 작은 배치 크기로 훈련된 모델만큼 일반화 성능을 내지 못할 수도 있다. yann LeCun에 의하면 32 보다 큰 미니배치를 사용하는 사람이 있다면 말려달라고도 했다.
확실히 작은 배치가 적은 훈련시간으로 더 좋은 모델을 만들기 때문에 작은 배치 크기 (2 ~ 32)를 사용하는 것이 바람직해보인다. 그러나 반대 의견도 존재한다. 학습률 warming up 과 같이, 작은 학습률로 훈련을 시작해서 점점 커지는 방식을 사용하면 매우 큰 배치 크기를 사용할 수 있다고도 한다. 큰 배치 크기는 일반화 성능에 영향을 미치지 않고 훈련 시간을 매우 단축 시킨다. 따라서 한 가지 전략은 학습률 warming up 을 통해 큰 배치 크기를 시도해보고나서, 훈련이 불안정하거나 최종 성능이 만족스럽지 못하면 작은 크기의 배치를 사용하는 것을 추천한다.

국가별 반도체 시장 점유율

 반도체는 해당 국가의 주요 핵심 산업이 되어가고 있다. 따라서 이에 대한 장기적인 측면의 안목과 산업육성이 요구되고 있다고 할 수 있다. 최근에 메모리 시장에서도 고집적도 측면에서 한국의 삼성과 하이닉스가 미국의 마이크론에 뒤지고 있다는 기사가 나올 정도로 글로벌 일등은 언제라도 해당 자리를 내어줄 수 있는 초경쟁 단계에 돌입하고 있다고 할 수 있다.

이에 반도체 산업에 있어 현재 우위를 유지하려면 기술개발, 인력육성, 정부의 산업지원 등이 필요하다고 할 수 있다.

image

image

리튬이온 배터리

 

배터리


- 리튬이온이 양극, 음극 사이를 이동하며 전기를 생산해 충방전이 가능한 2차 전지로 주로
휴대폰 등 모바일 IT 기기의 전원으로 사용되고 있지만 대용량화 기술이 발전함에 따라
자동차 및 에너지 저장 등의 용도로 사용이 확대되는 추세임

- 리튬 이차전지는 충전지 리튬이온을 제공하는 양극(Cathode), 리튬이온을 저장하는
음극(anode), 양극과 음극에서 발생한 전자가 외부회로를 통해 일을 할 수 있도록 내부단락을
방지하는 분리막, 리튬이온이 이동할 수 있는 공간과 환경을 제공하는 전해액으로 구성됨

- 리튬 이차전지는 양극재, 음극재, 전해질 및 분리막을 조립하여 만들어지며, 상기 4대 소재가
전체 생산원가의 50%를 차지함

 

기술구성
배터리는 분리막, 전극(양극, 음극), 전해액으로 구성되어 있다.

image

image

반도체 연마제

반도체 웨이퍼 표면을 매끄럽게 하는 역할을 하는 것을 연마제라고 한다.

image

 

스테인레스 후라이팬 사용 팁

 

스테인레스 후라이팬은 바닥이 벗겨질 염려가 없어서 많이들 사용하고 있지요?

다만 계란후라이를 할 때 잘 들러붙어서 힘들때가 많이 있습니다. 이럴때 후라이를 훌륭하게 잘 할 수 있는 방법은 무엇일까요? 바로 들기름을 먼저 넣고 나서 식용류를 넣으면 계란이 바닥에 들러붙지 않아 이쁜 모양의 계란 후라이를 만들 수 있답니다.

잘 참고하셔서 맛난 아침을 만드시길. 바래요.

image

온라인 회의(Zoom) 대체 툴

  

웹엑스

웹엑스(Webex)

글로벌 네트워크 및 보안 전문 기업인 시스코가 제공하는 화상회의 서비스로 소프트웨어 기반 화상회의 앱의 원조 격이라 할 수 있다. 1995년 설립 후 2007년 시스코가 인수해 운영하고 있다.

 

앞서 소개한 줌의 에릭 유안 CEO 역시 웹엑스 출신이다. 코로나19 확산 이후 무료 서비스 범위를 크게 확대해 최대 100명이 제한 시간 없이 화상회의가 가능하다.

데스크톱, 모바일 등 다양한 플랫폼과 안정적인 서비스가 장점이다. 월 13.5달러부터 시작하는 유료 서비스는 5GB의 클라우드 스토리지와 녹화 기능, 회의 영상 공유 등 프리미엄 기능을 제공한다.

 

스카이프

스카이프(Skype)

인터넷 기반의 음성전화 서비스(VoIP)로 출발해 현재 그룹 화상회의 기능도 제공하고 있다.

 

2003년 스카이프테크놀로지가 개발, 2011년 85억달러에 마이크로소프트(MS)가 인수했다.

국내에서는 대성홀딩스가 서비스를 대행하고 있다. 최대 50명까지 참여해 화상회의가 가능하며, 스카이프 가입자끼리 화상회의와 음성 통화는 무료다. 단, 스마트폰이나 유선전화 등 타 단말기 간 통화는 종량제 혹은 월정액제 유료 서비스에 가입해야 한다.

 

구글 미트

구글 미트(Google Meet)

구글의 화상회의 서비스인 구글 행아웃 미트가 구글 미트로 명칭을 변경했다. 최대 10명까지 무료로 화상회의가 가능하며, 구글 G메일, 구글 드라이브 등 다양한 구글 서비스와 연동이 쉽다는 점이 장점이다.

 

10인 이내의 소규모 팀용 화상회의 솔루션으로 적합하다. 유료 서비스를 이용하면 최대 250명까지 화상회의가 가능하다.

짓시

짓시(Jitsi)

최근 줌의 대안으로 주목받고 있는 화상회의 서비스다. 최대 75명까지 화상회의에 참여할 수 있는 오픈소스 기반의 무료 서비스다.

줌 만큼이나 간편하면서도 다양한 기능을 제공한다. 별도의 앱 설치 없이 웹 브라우저에서 화상회의 서비스를 가능케 하는 WebRTC(Web Realtime Communications) 기술을 쓰고 있는 것이 특징이다. 영상, 대화, 메시지 등 모든 데이터를 암호화 해 보안성도 높다는 평가를 받는다.

토키

토키(Talky)

오픈소스 기반의 다운로드, 가입 또는 결제가 필요하지 않은 무료 화상회의 서비스다.

짓시처럼 WebRTC 기술을 사용해 웹브라우저 상에서 간편하게 화상회의가 가능하다. 최대 6명까지 회의에 참가할 수 있어 소규모 팀에게 적합하다.

출처 : 디지털투데이 (DigitalToday)(http://www.digitaltoday.co.kr)

 

검은깨 식초 만들기

 검은깨식초는 장수의 비약으로 인기를 끌고 있다고 한다. 왜 좋을까? 다음과 같은 효과가 있다고 한다.

1. 검은깨식초를 섭취하면 식욕이 생기도 위장 기능이 좋아진다.

2. 홍고추로 인해 위장의 혈류도 개선되면서 소화 흡수가 촉진된다.

3. 식초는 수분 과다 섭취로 묽어진 위산의 기능을 조절한다.

4. 검은깨는 홍고추와 식초의 자극으로부터 위벽을 지키는 기능이 있다.

에 좋은 검은깨 식초를 만들어 보자. 검은깨식초는 위장기능을 개선하는데 특별한 효과를 갖고 있다고 한다.

image_thumb[8]

환절기 면역력 지키는 8계명

 환절기 면역력을 지키기 위해서는 많은 노력들이 필요할 것이다.

아래 내용을 잘 읽어보도록 하자.

image

image

반도체 공정-EDS

EDS공정이란?

1) Electrical Die Sorting 의 약자

2) Wafer 상에 있는 Die를 하나하나 양품/불량품으로 구분하는 공정을 말한다.

방법은?

웨어퍼  상태에서 전기적 특성 검사를 진행하여 각각의 칩들이 정상동작하는지 검사하는 방식으로 진행한다.

image

왜 중요한가?

반도체 수율(Yield) 향상과 직격되기 때문에 매우 중요하다고 할 수 있다. EDS공정은 웨이퍼 상태의 칩의 양품/불량품 검사를 통해 불량품 중 수선(Repair) 가능한 것들은 양품화한다.

또한 웨이퍼 공정상 또는 설계 상 발생한 문제점을 수정하느데 피드백을 줄 수 있다. 마지막으로 불량품을 미리 선별하여 이후 진행되는 패키징 공정과 테스트에서 제외한다. 따라서 Yield 개선에 기여할 수 있는 공정이라고 할 수 있다.

Yield란?

Wafer한장에 들어갈 수 있는 최대 칩 개수 대비 양품의 개수…

ALD 공정에 대한 이해

 

■ ALD 정의

1) ALD란?
    Atomic Layer Depo의 약어로서 증착공법중에서 한국에서 가장 처음으로 Field 적용한 방법임
2) 기존공법 대비 차별성
    - 기존의 CVD공법대비 개별 소재를 순차적으로 투입하여 박막을 형성하는 공법
     - 막형성에 필요한 원소를 한번에 한가지만 증발(기화)시켜 박막을 형성하는 원자층 적층 성장 공법
3) 장점
    - 모든 소재를 한꺼번에 투입하여 박막을 형성하는 CVD대비 장점이 있어 최근에 반도체 공정에서 사용하는 공법임

■  박막 성장을 위한 기본 사이클(4단계)

1) 전구체의 주입과 노출
2) 과잉 공급된 전구체와 부산물 제거를 위한 퍼지(purge) 및 배출
3) 반응체의 주입과 노출
4) 과잉 공급된 반응체와 부산물 제거를 위한 기상반응으로부터의 퍼지(purge) 및 배출

clip_image001

※ 참고

- 증착률 : 사이클 당 박막의 두께

    -> 막의 성장속도는 시간이 아니라 원료 공급 주기의 회수에 비례하여 막의 두께를 정밀하게 제어할 수 있음
        (원료공급량, Reactant 기체 유량/압력 등의 공정 조건에 민감하지 않음)

 

■ ALD의 장점

1) 매우 얇은 막을 형성할 수 있음

2) 기판의 면적이 넓어도 균일한 두께의 막 형성이 가능함

    (300mm웨이퍼에도 쉽게 적용이 可)

3) 기판의 요철에 관계없이 일정한 두께의 막이 형성됨

    (단차 피복성이 좋음)
4) 형성된 막에 핀홀이 없음
5) 분말이나 다공성 물질에도 균일한 두께의 막을 형성할 수 있음

 

■ 박막 성장 사이클에 소요되는 시간

1) 공정의 목적
2) 사용되는 전구체의 화학적 특성
3) 기판의 구조와 증착 온도
4) 기판과 전구체 간 반응성

 

■ 요구사항 충족을 위한 작업

- 원자층 증착 기술의 사이클은 요구되는 두께 증착을 위해 반복진행함
   (사이클 수에 따라 정확한 박막 두께의 제어가 가능함)

 

■ ALD 적용분야

- 전자의 흐름을 제어하는 절연층 증착에 사용
- 금속배선 공정까지 적용범위를 확대

 

■ ALD의 분류

1. 분류기준
- 반응체의 종류에 따라 분류가 가능함

2.  열(Thermal) 원자층 증착 기술
1) 정의
- 주어진 온도에서 오직 열에너지의 공급에 의해 전구체와 기체상의 반응체를 반응시켜 박막을 형성하는 공법

2) 할라이드(Halide)계 사용 공법
- 증착장비의 부식 문제 발생
- 파티클 생성의 가능성이 존재

3) 유기금속(Metal-organic)계 사용 공법
- 증착된 박막의 밀도 저하
- 박막 내 불순물이 잔존하는 문제 존재

3. 플라즈마(Plasma) 원자층 증착 기술
1) 정의
- 플라즈마 사용에 의해 저온에서도 증착된 박막의 불순물이 적고 치밀한 박막을 성장시킬 수 있는 공법

2) PEALD의 장점
- 낮은 온도에서 박막을 형성할 수 있다는 장점으로 인해 반도체 소자의 제조 공정에서 많이 사용됨
- 플라즈마를 이용한 증착기술의 경우 낮은 온도에서 박막형성 기능으로 인하여 전자/광학 소자 제조에 널리 사용됨

3) 직접 플라즈마(direct plasma) 공법
- 플라즈마에 의해 형성된 이온에 의한 손상이 발생할 수 있음

4) 원거리 플라즈마(remote plasma) 공법
- 기판과 플라즈마 발생영역이 분리되어 있어 이온에 의한 손상을 최소화할 수 있음

■ 3차원 구조의 메모리에서 박막형성

1. 핵심 기술
- 적층수와 메모리 집적도 증가에 의해 높은 종횡비가 요구됨
- 선행 공정에서 증착된 물질에 대한 영향을 최소화해야 함

2. 선행공정의 증착 물질에 의한 영향 최소화를 위한 필요조건
- 낮은 증착 온도
- 균일한 피복성을 지닌 고품위의 박막을 형성하는 것이 중요함

■ 여분의 원료 기체 제거 방법

1. 원료 기체를 진공 펌프로 배기하는 방법
  clip_image001[5]

2. 아르곤 등의 불활성 기체를 흘려 여분의 원료 기체를 씻어내는 방법
  clip_image001[7]

 

■ ALD의 성능parameter

- 반응가스의 종류
- 증착온도 높은 경우 : 화학적 결합이 지속되지 못하거나 화학반응영역의 밀도가 감소하여 증착 속도는 감소함
- 증착온도 낮은 경우 : 화학적 흡착과 박막 형성 반응이 열적으로 활성화되기 때문에 증착 속도는 증가함

 

■ Canister

- 케미칼의 보관/이동/사용 과정에서 케미칼의 변질없이 안전하게 보관하기 위한 저장용기이다.
- 또한 장비에 케미칼을 공급하는 과정에서 장비의 사용에 따라 여러 가지 적합한 방법으로 공급하기 위한 목적으로 사용한다.
- 장비 및 공정에 따라 내부 진공, 가압, 가열 등 다양한 악조건에서 사용되는 경우가 빈번하다.

2024년 8월 18일 일요일

가평 오색별빛 정원전

 가평하면 가볼 곳이 많지만.

아마도 가평에 가본 분들은 여기를 가보았을 것이다. 아침고요수목원..

이곳은 1996년에 개원했으며, 현재는 33만 제곱미터 면적에 하경정원, 에덴정원, 아침광장 등 22개의 특색있는 주제 정원으로 이루어져 있다.

특히 겨울에는 밤에 가볼 것을 추천한다. 왜냐하면 빛축제가 있기 때문이다. 화려한 조명 속에서 자연의 아름다움을 한껏 느낄 수 있을 것이다.

image

image

image

[가평] 카라반캠핑농원

전세계 4월 축제

 코로나로 인하여 밖에 나가는게 쉽지 않다.

국내의 진해군항제를 비롯하여 여러 축제가 올해는 열리게 될지도 잘 모르겠다.

어서 마스크를 벗고 국내외 축제를 다녀올 수 있는 시간이 빨리 오기를 기대한다..

image

[내륙] [내륙항공권모음] 김포↔부산,광주,여수,포항,대구 ◈특가◈ 편도항공권

코로나 이후 주목해야 할 7대 기술

 

# 코로나 이후 주목해야 할 7대 기술

 

1. Conversational AI(대화형 AI)

- 언어 지능의 혁신을 주도하는 딥러닝 기반의 대용량 사전학습 언어모델
- 고도의 대화형 AI등장과 범용 인공지능으로의 도약 가능성을 제시
- OpenAI 'GPT-3', 구글 BERT, MS Turing NLG, 엔비디아 MegatronLM, 페이스북 RoBERTa, ETRI Exobrain

 

2. Small Data Intelligence(스몰데이터 기반 AI)

- 소량의 데이터만으로 고성능의 AI모델을 생성하는 방법
- 딥러닝 학습에 필요한 고품질의 대량의 데이터을 얻기 위해 데이터 자체에 인위적인 변화를 주어 데이터의 양을 늘리는 기술
- Transfer Learning, Self-supervised Learning, Data Augmentation(구글 AutoAugment 등)

 

3. Digital Self(디지털 자아)

- 온라인과 오프라인의 사회 및 경제적 활동 과정에서 축적된 데이터를 통해 나으 ㅣ경제활동, 신용, 인간관계와 건강 상태를 디지털로 재구성
- Quantified self, Digital Identity, Health passport, Digitaltwin of human, Internet of Behaviors

 

4. Privacy-Preserving Tech(프라이버시 보장형 기술)

- 많은 산업 분야에서 개인 데이터의 활용 가치가 높아짐에 따라 개인정보 '활용'에 무게를 두면서 프라이버시 '보호'를 강화하려는 다양한 기술적 해법이 등장
- 연합학습(FedSGD, FedAVG), 차등정보보호, 동형암호 등

 

5. Metaverse(메타버스)

- 현실과 가상공간이 완전히 결합한 초연결 및 초실감 디지털 세계로 시간과 공간의 제약없이 극도의 몰입감과 현장감을 제공
- XR, 홀로그램, 질감재현기술, Spatial Computing

 

6. Food Tech(푸드테크)

- 식품과 기술을 결합한 신조어로 농산물 생산과 유통뿐만 아니라 음식의 개념 자체를 바꾸며 개인 맞춤형 푸드, 구독형 푸드 등을 통해 인간과 음식의 관계를 재정의
- 3D푸드 프린팅, 푸드로봇, AI, 분자공학, AgTech 등

 

7. CBDC(중앙은행 디지털 화폐)

- 비트코인 등 가상화폐와 달리 각국 중앙은행이 발행한 디지털 화폐(CBDC : Central Bank Digital Currency)로 국가가 직접 관리 및 감독 가능
- 분산원장기술, 디지털 위안화(DCEP)

배깅과 부스팅

 

■ 앙상블

- 여러개의 결정트리를 결합하여 하나의 결정트리보다 더 좋은 성능을 내는 머신러닝 기법을 말한다.
- 여러개의 약분류기를 결합 -> 강분류기를 만듦

 

■ 앙상블 학습법

- Bagging과 Boosting 2가지가 있다.

 

■ 배깅

1. 배깅이란?
- 부트스트랩 집계(Bootstrap Aggregation)의 약자이다.
- 훈련 데이터로부터 여러 무작위 인스턴스 샘플을 생성하고
    각 샘플에 의사결정 트리 모델을 만든 다음
    각 결정 트리의 예측 결과를 평균화하여
    각 인스턴스의 출력을 예측하는 방법임

2. 방법
1) 샘플을 여러번 뽑음(Bootstrap)

2) 각 모델을 학습
- 병렬로 학습

3) 결과물을 집계(Aggregation)
- 이산형 : 투표방식(Voting)으로 결과를 집계함
- 연속형 : 평균(Mean)으로 결과를 집계함

3. 장점
- 샘플의 무작위화(randomization)와 여러 트리의 결과를 평균화하는 배깅(ensemble method)을 통해
    단일 의사결정 트리에서 발생하는 과대 적합을 해결할 수 있음

■ 부스팅

1. 부스팅이란?
- 가중치를 활용하여 약분류기를 강분류기로 만드는 방법
- 배깅과의 다른점은? 순차적으로 여러번 샘플링을 뽑아 AI가 이전 트리에서 배운 것을 사용하여 후속 트리의 결과를 개선하는데 사용하는 방법
- 모든 트리기반 방법 중에서 그래디언트 부스팅 머신(gradient boosting machine)은 최고의 성능을 내는 알고리즘임

2. 방법
1) 샘플을 여러번 뽑음

2) 각 모델을 학습
- 순차적으로 학습

3) 잘못분류/예측된 데이터에 가중치를 부여후 재학습
- 학습이 끝난후 결과에 따라 가중치를 부여함
(오답에 대해서는 높은 가중치를 부여하여 훈련데이터로 선택될 확률을 높임,
정답에 대해서는 낮은 가중치를 부여하여 훈련데이터로 선택될 확률을 낮춤)
- 가중치에 따라 다음 모델의 결과에 영향을 줌
(다음 차수의 학습에서는 오답에 대한 학습에 중점을 두고 실행하여 최종 예측 정확도의 신뢰도를 높임)

MARL(Multi Agent Reinforcement Learning)

 

## RL이 좋은 점

- 설계자로부터 적은 입력(little input from the designer)
- 정확한 역학관계 모델이 필요없음(no need of a precise dynamic model)
- 자동 학습(autonomous learning)
- 내재하는 조정 메소드(inherently adaptive methods)

 

##
MARL이란?

- Multi-component control에 대한 RL의 확장
- 한개의 문제를 복수개의 agent문제로 분해함으로써 대상 문제에 대한 복잡도를 줄여줌

 

##
MARL의 Challenge

1. True Decentralized/distributed learning
- 일반적인 환경에서 수렴을 보장할 수 없다.
- 수렴과정이 매우 느리다

2. Toy problems : 시뮬레이션

3. 멀티-에이전트 액터-크리틱으로의 일반화

4. 탐색 vs. 활용
- 비정상 국면 감지(nonstationary regime detection)

 

##
Stochastic Games

1. 경쟁적 설정
- 최적의 폴리시는 내쉬균형?

## 멀티에이전트 시스템에서 RL의 두가지 기본 관점

1. Agent는 다른 에이전트가 취하는 행동에 대해 모른다.(Unaware)
- Agent는 다른 Agent가 선택한 행동을 모른다.
- Agent간 Communication을 요구하지 않는다.
- 제한된 조건하에서 수렴은 보장할 수 있다.

2. Agent는 다른 에어진트가 취하는 행동을 알고 있다.(Aware)
- Agent는 다른 Agent가 어떤 액션을 취하는지 알고 있다.
- Agent간 Communication을 요구한다.
- 수렴을 보장한다.

## MARL의 도전적 과제

1. 에이전트가 외재적/내재적으로 서로 협력해야 할 필요가 있다.
- 다른 에이전트가 학습하고 해당 폴리시를 변경하는 과정에서 대상 에이전트를 학습시켜야 한다.
(주위의 환경이 역동적으로 변화하게 되어 동일한 상태에서 행동을 하더라도 Variance가 발생하는 문제가 있다.)

2. 상태와 액션 공간의 분해

3. 조인트 액션 구성

4. 수렴에 대한 증명은 어려움
- 비정상(Non-stationary) MDP
- 문제는 확률적 게임으로 모델링한다.

##
Centralized

- 모든 에이전트들의 행동이 결합되어 있는 상태에서 학습을 함
(모든 에이전트가 Policy를 알고 있음)
- 모든 에이전트가 개별적으로 학습을 수행함
- communication제한은 환경에 의해 정의됨

- 단점 : 모든 에어전트가 결합되어 있음으로,
관측 공간(Observation space),
행동 공간(Action space)이
에이전트의 수에 따라 기하 급수적으로 많아짐

image

##
Decentralized

- 모든 에이전트는 독립된 정책망을 갖고 있음
- 따라서 하나의 에이전트는 Joint Action Distribution이 아닌 독립된 정책망에서 행동을 결정함
- Action Space가 상당히 줄어듬
 

## Concurrent

- Concurrent Learning에서는 각 에이전트가 자체 개별 폴리시를 학습한다.
- Concurrent 폴리시는 에이전트의
- 개별 에이전트의 폴리시는 독립이다.
- 폴리시 그레디언트 접근에서

image

##
MARL의 해결과제

1. MARL은 Single-agent RL보다 차원의 저주 문제가 보다 복잡함
    - 원래부터 RL은 Curse of dimensionality문제를 내재하고 있음
  
2. MARL의 비정형성(Nonstationarity) 문제 해결이 어려움
    - 이유 : 모든 에이전트가 동시에 학습을 해야 하기 때문에 nonstationarity문제가 발생함

3. Multiple Agents로 인하여 complication이 높아지는 문제가 있음
    - 이유 : 대상 Agent만 state가 변경되면서 결과에 대한 reward에 근거하여 학습을 수행해야 하는데
               주변의 다른 Agents의 states도 변경되면서 nonstationary문제가 발생함

##  MARL의 몇가지 축

1. Cooperative
    - Agents Cooperate to achieve a goal
2. Competitive
    - Agents Compete against each other
3. Neither
    - Agents maximize their utility which may require cooperating and/or competing

리만 매니폴드의 개념

 

## 리만매니폴드의 정의

- 미분가능한 매니폴드를 리만 매니폴드라고 정의한다.

## 리만공간과 유클리디안 공간

- 유클리디안 공간에서의 이차미분(곡률) = 리만 공간에서의 일차미분(Natural Gradient)

- 유클리디안 공간에서 보면 곡률을 따르는 일직선은 곡선으로 보인다.

- 유클리디안 공간에서의 이차미분 = 리만공간에서의 일차미분

-> Natural Gradient에서는 Policy가 리만 manifold를 따른다는 가정을 하고

이에 근거하여 Gradient를 계산하며 이 결과를 Natural Gradient라고 한다.

clip_image007_thumb[1]

 

## 결론

- PPO가 나온 이유를 알기 위해서는 NPG를 알아야 한다.

-> NPG(2001) -> TRPO(2015) -> PPR(2017)

- Natural Gradient에서는 Policy가 리만 매니폴드를 따른다는 가정을 한다.

- Riemannian Manifold(리만매니폴드)란?

-> 매니폴드중에서도 매니폴드가 각지지 않고 부드럽게 생긴, 미분 가능한 매니폴드이다.

- Natural Policy Gradient는 리만공간(굽은공간)에서의 일차미분(일차근사)을 이용하여 Gradient를 계산하고 이를 이용하여 Policy를 업데이트한다.

------------------------------------------------

I. Optimization

## 최적화 문제

- 방법 : 대상 목적함수의 1차 미분을 이용하여 0이 되는 지점을 찾아 최적값 여부를 확인하는 방법

- 문제 : 초기와는 달리 최적점에 가까워질수록 step이 줄어들어 여러 iter을 진행하더라도

최적값을 찾지 못하는 문제점이 발생한다.

x_(k+1)=x_(k) - λf'(x_(k))

- 해결안 : 1차 미분 이외에도 2차 미분결과를 이용하여 iter을 진행할 경우 보다 빨리 최적값을 찾아낼 수 있다.

아래 식은 테일러 급수와 관련이 있음(원래 함수를 테일러급수로 추정하고

x_(k+1)= x_(k) - f'(x_(k)) / f''(x_(k))

## Natural Gradient와 Gradient의 차이

- Gradient Method는 파라미터의 값에 큰 변화를 만들어 낼 수 없음

- Natural Gradient는 Better Action보다는 Greedy Optimal Action을 선택하는 방향으로 나아감

 

II. Policy Gradient

## 폴리시 그레디언트란?

- 미래 보상에 그레디언트를 취해 최적의 폴리시를 찾는 방법임

- 유클리드 공간을 전제로 이루어졌던 기존의 방법(SGD) : Non-covariant

- 리만 공간을 전제로 이루어졌던(NPG) : Covariant

## 폴리시 최적화

- 업데이트 방향(steepest descent direction)

-> sutton의 PG와 별차이 없음

- 업데이트 크기(distance)

-> 크기가 중요하다.

## 방향과 크기

- 유클리드 공간에서는 파라미터 θ간의 거리는 |dθ|^2 = dθ dθ으로 표현할 수 있다.

- 파라미터 θ가 새로 업데이트 됨에 따라 매니폴드 모양이 계속 변경될 수 있다.

-> 이러한 경우 θ1과 θ2간의 거리가 일정하지 않으므로 이에 대한 general한 거리계산법이 필요하다.

-> KLD를 이용하여 두 분포간 차이를 최소화하는 방향으로 constraint를 걸어 연산하는 방향으로 전개한다.

## 거리계산식

|dθ|^2 = ∑ij Gij (θ) dθi dθj = dθT G(θ) dθ

G(θ)가 identity matrix면 이 식은 유클리드 공간에서 거리를 계산하는 것과 같다.

- Natural Gradient : 리만공간(리만 매니폴드)을 기반으로 하여 거리를 측정하는 방법

-> 매니폴드 모양이 계속 변경되면 같아야 할 θ간의 거리가 달라지게됨(variant)

-> 동일한 대상간의 거리가 매번 바뀌면 폴리시 최적화에 어려움을 겪을 수 있어 이를 invariant하게 만드는 것이 필요함

-> 이와 같은 방법은 FIM(Fisher Information Matrix)을 G(θ)로 쓰는 것이다.

-> FIM : 리만공간에 적용가능한 Positive Definite Matrix중 하나이다.

좌표축의 선택과 상관없이 두 점간의 거리를 동일하게 만드는 방법이다.

- xAxT : x로 무엇을 넣어도 행렬연산의 결과를 양의 값으로 만드는 것을 positive definite matrix라고 한다.

- Natural Gradient : 리만공간(리만 매니폴드)을 기반으로 거리를 재는 방법

-> 문제는 매니폴드의 모양이 바뀌면 거리가 달라지므로 이를 방지(invariant)할 수 있는 방법이 필요함

-> 방지할 수 있는 방법이 FIM(Fisher Information Matrix)임

## Natural Gradient란?

1) 리만 공간을 기반으로 하여 거리를 재는 방법을 Natural Gradient라고 한다.

2) 이 경우 매니폴드의 모양이 계속 바뀔때마다 같아야 할 θ간의 거리가 variant하게 되면

policy optimization이 intractable하기 때문에

NG를 invariant하게 만드는 것이 매우 중요하다.

-> NG를 invariant하게 만드는 방법이 FIM이다.

3) 어떤 좌표를 선택하더라도 두 포인트간의 거리를 동일하게 만드는 방법

## FIM이란?

리만 공간에 적용가능한 Positive Definite Matrix중의 하나이다.

FIM을 Natural Gradient에서 G(θ)으로 사용한다.

## NPG란?

Policy Gradient + Natural Gradient를 의미함

clip_image008_thumb[1]

FIM이라는 Positive-Definite Matrix를 써서 리만공간을 고려한 방향 및 크기로

목표함수를 업데이트 함

## NPG에서 PPO까지 진행이력

NPG(2001) -> TRPO(2015) -> PPO(2017)

## 매니폴드의 이해

1. policy는 몇 차 함수일까?

- parameter(sigma)로 이루어진 함수라고 정의함

## NGM

- 어떤 파라미터 공간에서의 가장 가파른 방향을 강조함

- 파라미터 공간은 리만 매니폴드로 정의할 수 있다.

- 리만 매니폴드는 각지지 않고 미분가능하게 부드러운 곡률을 가진 면이다.

## NG

- NG에서는 폴리시가 리만매니폴드를 따른다는 가정을 한다.

- 리만 매니폴드? 매니폴드 중에서도 부드럽게 생긴, 미분 가능한 매니폴드라고 이해하고 넘어가자.

## 매니폴드의 이해

- Natural Policy Gradient는 리만공간에서의 일차미분을 이용한 gradient로 policy를 업데이트하는 것이다.

- 쉽게말해서 유클리디안 공간에서의 이차미분 = 리만 공간에서의 일차미분이라고 생각할 수 있다.

## 참고문헌

1. https://www.slideshare.net/SooyoungMoon3/natural-policy-gradient

2. https://talkingaboutme.tistory.com/entry/RL-Policy-Gradient-Algorithms

3. https://medium.com/@jonathan_hui/rl-natural-policy-gradient-actor-critic-using-kronecker-factored-trust-region-acktr-58f3798a4a93

NPG(Natural Policy Gradient)

 Kakade에 의한 내용 : http://www.gatsby.ucl.ac.kr

 

I. Natural Gradient

## NG란?

- Natural Gradient에서는 Policy가 리만매니폴드(manifold)를 따른다는 가정을 하고 이에 근거하여 계산한 Gradient를 말한다.

- 리만 공간(리만매니폴드)을 기반으로 하여 거리를 재는 방법을 Natural Gradient라고 한다.

## 매니폴드

아래 그림에서와 같은 점들을 아우르는 subspace를 의미한다.

clip_image001

## 리만매니폴드(Rimannian Manifold)

매니폴드가 각지지 않고 미분 가능하게 부드럽게 곡률을 가진 면을 의미한다.

Manifold중에서 부드럽게 생긴, 미분 가능한 Manifold를 말한다.

-> 유클리디안에서의 이차미분 = 리만공간에서의 일차미분

## RL에서 natural gradient의 유용성

논문 그림에서와 같이 natural policy gradints의 경우 보다 좋은 성능을 보여주고 있음

-> 일반적인 gradient대신에 natural gradient가 좋다는 것을 실험으로 입증해줌

clip_image002

## Gradient대신 NG이 Steepest Descent Direction을 갖는이유

-> 신경망을 사용할 경우 Gradient가 Steepest Direction이 아닌 경우가 많다.

신경망의 Parameter Space가 우리가 보통 생각하는 직선으로 쭉쭉 뻗어있는 Eucidean Space가 아니다.

좀더 일반적으로는 구의 표면과 같이 휘어져있는 공간인 리만공간(Riemannian Space)으로 표현할 수 있다.

이러한 공간에서는 Natural Gradient가 Steepest Direction이 된다.

## NPG의 한계

- Natural Policy Gradient만으로 업데이트하면 policy의 improvement를 반드시 보장할 수는 없다.

- Policy의 Improvement를 보장하려면 line search를 사용해야만 한다.

## FIM(Fisher Information Manifold)

- 리만 공간에 적용 가능한 Positive Definite Matrix 중 하나이다.

- Manifold모양이 계속 바뀔때마다 같아야 할 θ간의 거리가 달라져(variant) 버리면

Policy 최적화에 어려움을 겪을 수 있으니

이를 Invariant하게 만드는게 좋은데

그 방법은 Fisher Information Matrix를 G(θ)로 쓰는 것이다.

- NPG에서의 steepest descent direction은 아래와 같다.

clip_image003

위식의 해석은 FIM이라는 Positive-Definite Matrix를 사용하여

리만공간을 고려한 방향 및 크기로

목표함수를 업데이트 한다.

 

## Positive Definite Matrix

- 양의 정부호 행렬

-> Symmetric Matrix ⊃ Positive Definite Matrix

-> 대칭행렬은 실수인 고유값들을 갖는다.

양의 정부호 행렬도 마찬가지로 실수인 고유값들을 갖는데

더 나아가서 고유값들이 모두 양수이다.

- 함수 f(x,y)는 점(0,0)을 제외하고는 모두 다 0보다 큰 값을 갖는경우,

이러한 함수를 양의 정부호(positive definite)라고 한다.

함수값들이 정류점을 제외하고는 양수로 한정되어 있기 때문이다.

- 양의 정부호인 경우에는 극소점을 갖는다.

이와는 달리 음의 정부호(Negative Definite)인 경우에는 극대점

 

 

## NPG를 배우기 전에 매니폴드를 배우는 이유?

- Natural Gradient Method는 어떤 파라미터 공간에서의 steepest descent direction을 강조하기 때문.

- 이땐 파라미터 공간은 리만 매니폴드이다.

- 리만 매니폴드는 매니폴드가 각지지 않고 미분 가능하게 부드럽게 곡률을 가진 면이라고 생각하면 된다.

 

 

## 폴리시의 이해

- 폴리시는 파라미터(θ)로 이루어진 함수이다.

- 폴리시는 몇차 함수일까? 보통 굉장히 고차원이고 우리가 어릿속으로 떠올릴 수 있는 차원이 아니다.

 

## 폴리시의 차원

- 강화학습에서 policy는 고차원일 가능성이 높음(다차원 벡터)

- 최적의 폴리시를 찾는 과정에서 대상 폴리시는 조금씩 변함 -> 공간에 흩뿌려진 형태일 가능성이 높음

- 폴리시의 함수를 시각하하기 위해 편의상 3차원으로 떠올려보자.

- 3차원으로 볼 경우 다음 그림과 같을 것이며 각각의 점은 폴리시라고 할 수 있다.

clip_image004

 

매니폴드는 조금씩 점을 이동하면서 유의미한 변화가 나타남을 의미한다.

clip_image005

 

 

## 강화학습의 목표

- 성능을 최대화하는 θ를 찾는 것

- 보상을 최대화하는 것

- J(θ) : 성능(목표함수)

- ▽J(θ) -> θ학습 -> J(θ) 최대화

 

 

## 매니폴드란?

- 공간에 흩뿌려진 많은 점들을 아우르는 subspace공간을 의미함

- 많이 접힌 것, 많이 접히면서 점들을 아우르는 것

-> 2d로 만들어 버리면 차원축소(dimensionally reduction)가 됨

- 이렇게 접힌 것을 쫙쫙 펴서 2d로 만들어 버리면 dimensionally reduction이 된다.

-> 물론 완벽한 2d가 되지 않을 수 있지만 국소적으로는 2d가 된다.

 

 

## 매니폴드의 필요성

- 고차원 파라미터를 저차원에서 생각할 수 있음

-> 차원을 축소하면 점들 사이의 상관관계를 더욱 잘 알 수 있음

 

## 매니폴드와 NPG

- NPG는 어떤 파라미터 공간(리만 매니폴드)에서의 가장 하강경사가 급한 방향을 중요하게 생각함

- 리만매니폴드란? 매니폴드가 각지지 않고 미분가능하게 부드러운 곡률을 가진 면이라고 한다.

## 매니폴드의 이해

- 매니폴드를 고려하지 않고 B에서 A1의 거리와 A2의 거리를 비교해보면

유클리드 공간에서의 거리는 B에서 A1까지가 더 가깝다고 여길 것이다.

그러나 리만 공간(매니폴드)을 고려하면 B에서 A2까지가 더 가깝다.

-> 리만공간에서 첫번째 이동한 결과 : 폴리시(A1) = 폴리시(B + 1000)

-> 리만공간에서 두번째 이동한 결과 : 폴리시(A2) = 폴리시(B + 10)

- 기존 차원(유클리디안 공간 해석)에서 볼 경우 B와 A1이 보다 가까운 거리일수있지만

기존과 다른 매니폴드측면(리만 공간 해석)에서 볼 경우 B와 A2가 보다 더 가까운 거리가 된다.

## Covariant(공변량)의 이해

- B와 A1보다 B와 A2가 더 Covariant하다고 할 수 있다.

-> 왜냐하면 리만 매니폴드에서는 B기준으로 볼 때, A2가 A1보다 더 가깝기 때문이다.

-> 리만공간(매니폴드)상에서는 눈으로 보이는 것이 다가 아니다.

## 바람직한 Policy 변경 방법

- Policy(B)에서 Policy Gradient를 통해, Policy(B+delta B)로 간것이 Policy(A1)이라면

Policy가 너무 지나치게 바뀜을 느낄 수 있다.

- 따라서 delta B에 0.0001과 같이 작은 수의 스텝 사이즈를 더하여 조금씩 변하게 하여

Policy(B) -> Policy(A2) -> Policy(A1)으로 변경되도록 하는 것이 보다 바람직하다.

clip_image006

## 매니폴드와 폴리시 그레디언트

- 기준점 B에서 폴리시 그레디언트를 통해 이동한다고 하자.

- 이 경우 A와 A2가 상대적으로 보다 covariant하다고 정의할 수 있다.

-> 좌측그림으로 판단(유클리드 공간으로 해석)할 때 B기준으로 A1이 더 가깝다고 판단할 수 있으나

매니폴드를 전개하여 판단(리만매니폴드 베이스로 해석)할 때 B기준으로 A2가 더 가깝다고 판단할 수 있다.

-> policy(B+delta B)로 간 것이 Policy(A1)보다는 Policy(A2)가 보다 더 유의미하다고 할 수 있다.

태그

2025년 가열재생방식 가치기반 가치기반학습 가치이터레이션 강화학습 강화학습기초이론 강화학습방법 강화학습종류 개나리 개념 개발업무 최적화 건강 건식전극코팅 검사 검사기 검사장비 검사장비 양산라인 투입 절차 검색엔진최적화 검색키워드 검출율 경쟁력 경험재플레이 고체전해질적용 공부방법 공정간 에너지 흐름 공정내 에너지 절감 기술 과검율 관절 구글검색키워드 군마트 극초박형 셀제조 기계학습 기내반입 기대값 기초용어 나스닥 남녀사랑 냉각시스템 네이버 네이버 검색 키워드 분석 단백질 답변거부능력 더 원씽 덕담 동적계획법 듀얼브레인 드로스 딥시크 레이저노칭 문제점 로봇산업 롤투롤 생산공정 리액트히터 리튬산업 마르코프과정 마르코프의사결정 막걸리 말을 잘하는 방법 멀티 스텝 모델링 메모리 메인내용 메주콩 메주콩파종 멧돌호박 모델기반학습 모델종류 모델프리학습 모듈 모바일 몬테카를로 방법 몬테카를로방법 물류 및 공급망 최적화 물성의 성질 미국 오하이오 미국주가 미국주식 미래기술전망 미래전망 미세플라스틱 미중경쟁 밀도범함수이론 반도체 가격 상승 반사율 방수 배터리 배터리 주요불량 배터리공정 배터리기술 배터리불량 배터리소재 배터리신뢰성 배터리와인공지능 배터리정책 배터리제조 배터리제조신기술 백주 뱀때 버거체인 벨만방정식 병역명문가 보조배터리 보조배터리 기내반입 분석솔루션 불량원인분석 비례적분미분제어 비전 비지도학습 사랑 삼성반도체 새피해 새해인사 새해인사말 생각정리 생각정리기술 생마늘 생산계획 생수 생수페트병 설계최적화 설날인사말 설비고장예측 성심당 성심당온라인 구매 성심당추천빵 셀 스웰링 셀스웰링 셀투팩 소매업 소재개발 소프트뱅크 쇠뜨기 수명예측 수요예측 스마트팩토리 스웰링불량 시간차학습 시계열분석 시뮬레이션 신뢰성 액터-크리틱 양배추 양자컴퓨터 어텐션 어텐션메커니즘 에너지 절감 에너지 절감방법 에너지사용최적화 에너지절감 에너지절감방안 에어드라이어 에피소드 기반 학습 엘지전자 영어 영어 리스닝 예제 오버행불량 오버행불량원인 오프폴리시 온누리상품권 온폴리시 용접 워런버핏 원달러 변화패턴 원달러 환율전망 원엔환율 원인 원자간 상호작용 학습 및 예측 웬디스버거 을사 인간피드백을 통한 강화학습 인공지능 인공지능경쟁 인생 일본금리 일본환율 자발적DR 자이가르닉 효과 장마 재고관리 재생시스템 재활용소재활용 저전압 저축 전자분포 전자의 움직임 전자의분포 전자의움직임 전통시장통통 정식방법 정책기반 정책기반 이터레이션 정책기반학습 정책이터레이션 제사상 제습공조설비 제습효율 제조업 제조에너지절감 제품개발 젠슨황 조합최적화 주식 중국공급과잉 중요샘플링 지도학습 지도학습미세조정 지붕방수 지수평활법 창신메모리테크놀로지 책줄거리 청주 최신배터리기술 최신이슈 최적제어 추정 추천빵 코스모스 콜드 스타트 키워드 분석 탁주 통계적 방법 투자 투자가 투자철학 트럼프2.0 트루시니스 파종 패키징공정 페트병 페트병두께 푸른뱀때 품질관리 피엑스 필요기술 필요지식 하이닉스 학습항목 한국반도체 행복 행위적인공지능 현대차 화합물 물성 확률 효능 효율적인 업무방법 휴머노이드로봇 흡착식 에너 드라이어 흡착식에어드라이어 흡착제 힘의교환 Actor Actor-Critic 강화학습 Actor-Critic학습 Agentic AI AI AI기반품질관리 Air Dryer ARIMA AS재고관리 Attention Attention Algorithm Battery Manufacturing Battery Manufaturing Battery Material Books Books for Beginners to Learn About LLM CATL Cell to Pack confusion matrix Critic CTC CTP CXMT DDR5 Deep Learning Deep Seek DeepSeek Demand Response DFT DIO Double DQN DP DPO DQN Dross DSO Dueling DQN dumplings Dynamic Programming ESS ESS솔루션 EV FFC FFC체결여부 검사 garlic genesis Gongi Graph Enhanced RAG Health Horsetail Hot Areas how to speak well Human Feedback importance sampling Kitchen hoods Korean dumplings Korean Rice Cake Soup Korean Traditional Game Large Language Models LLM LSTM Machine Learning Interatomic Potential Mandy Material Development MDP MLIP MMFF94 Multi-step Modeling New Battery Materials NMP Recovery Nuts PCU Physical AI PID제어 ppm PPO Pre Cooling Unit pre training Precooling Unit Prophet Protein Q-Learning Quality Inspection Data Quality Management RAG Raw Garlic RCU React Heater REINFORCE REINFORCE학습 Reinforcement Learning Reliability Return cooling Unit RL RLHF RORL RUL방법 SARIMA SARSA SCM SCM 핵심 재무 지표 SEO SFT SHAP SHAP로직 small kitchen hoods squd Squid Game Stacking TD학습 Temporal Difference Tener Stack Time Difference Learning truthiness Ttakji Tteokguk VAR ventilations for small spaces Vision Water Z-Stacking