본 글은 위 링크를 참조하여 정리한 글입니다.
🪄Entropy/Cross Entropy/KL Divergence
- 특정 stochastic 확률을 띄는 사건 X
- 일어날 Probability확률 P(X)
- Information정보량: 주어진 이벤트에서 발생하는 놀라움의 양 (ex. 동전 던지기) I(X)
- Entropy엔트로피: 임의의 이벤트에서 발생한 Information(놀라움)의 평균/기댓값 H(X)
- 사건 P가 확률분포를 가질 때
- 그 분포를 근사적으로 표현하는 확률분포 Q를 대신 사용할 경우: Cross Entropy크로쓰 엔트로피: 두 확률분포 간의 차이를 측정하는 지표
- 두 확률 분포 P,Q 사이의 차이를 측정하는 지표
- 두 확률 분포 P,Q 사이의 차이를 측정하는 지표
- 두 확률 분포 간의 KL Divergence: 놀라움의 표현(높다=두 확률 분포가 가깝지 않다=놀라움)
- 얼마나 sampled data가 P 분포로부터 나왔는지 나타내는 likelihood Ratio의 기댓값
- Prior distribution Q에서 Posterior distribution P로 이동할 때 얻어지는 information. Likelihood ratio approach로 확인
- Likelihood ratio: 값 x가 임의의 분포로 sampling되었을 때 분포 p에서 sampling되었을 확률, log likelihood ratio로 나타내면 다음과 같다.
- Log likelihood ratio를 이용하여 각 sample에 대한 모종의 합(기댓값)으로 표현: KL Divergence
- Likelihood ratio: 값 x가 임의의 분포로 sampling되었을 때 분포 p에서 sampling되었을 확률, log likelihood ratio로 나타내면 다음과 같다.
- 그 분포를 근사적으로 표현하는 확률분포 Q를 대신 사용할 경우: Cross Entropy크로쓰 엔트로피: 두 확률분포 간의 차이를 측정하는 지표
-
-
- 주의점
- 교환법칙이 성립하지 않는다.
- X 두 분포간의 거리 개념/Distance metric
- 교환법칙이 성립하지 않는다.
- 주의점
-
🪄On Deep Learning(Especially on Classificaion)..
Supervised learning에서는 GT인 True probability P가 존재하고, NN가 학습을 통해 Approximate Probability distribution Q를 배우게 된다. 이 때 P와 Q 사이의 거리를 최소화하도록 NN이 작용한다. Cross Entropy loss를 사용하여 classification이 이루어집니다. 즉, P에 대한 Entropy와 P, Q간의 KL Divergence의 합으로 KL Divergence를 최소화하는 방향으로 구성
'Mathematics > Probability, Statistics, Information' 카테고리의 다른 글
[Probability] 3. Gaussian process, Gaussian Process Latent Variable Model(GPLVM) (0) | 2022.03.05 |
---|---|
[Probability] 2. Random Process, Random Variable, Functional analysis, Kernel function (0) | 2022.03.05 |
[Probability] 1. Probability Distribution: Gaussian Distribution (0) | 2022.02.19 |
[Probability] Gaussian, Bayesian 용어 정리 (0) | 2022.02.12 |
[Probability] Gaussian Process (0) | 2022.01.21 |