본 글은 위 링크를 참조하여 정리한 글입니다.
🪄Entropy/Cross Entropy/KL Divergence
- 특정 stochastic 확률을 띄는 사건 X
- 일어날 Probability확률 P(X)
- Information정보량: 주어진 이벤트에서 발생하는 놀라움의 양 (ex. 동전 던지기) I(X) $$Information \; I(X) = -log_2 P(X)$$
- Entropy엔트로피: 임의의 이벤트에서 발생한 Information(놀라움)의 평균/기댓값 H(X) $$Entropy \; H(X) = E(I(X)) = -\sum P(X)log_2 P(X)$$
- 사건 P가 확률분포를 가질 때
- 그 분포를 근사적으로 표현하는 확률분포 Q를 대신 사용할 경우: Cross Entropy크로쓰 엔트로피: 두 확률분포 간의 차이를 측정하는 지표
- 두 확률 분포 P,Q 사이의 차이를 측정하는 지표 $$H(P,Q) = -\sum P(X)log_2 Q(X) = E_P(I_Q(X))$$ $$Cross Entropy: \; H(P,Q) = H(P) + D_{KL}(P || Q)$$
- 두 확률 분포 간의 KL Divergence: 놀라움의 표현(높다=두 확률 분포가 가깝지 않다=놀라움)
- 얼마나 sampled data가 P 분포로부터 나왔는지 나타내는 likelihood Ratio의 기댓값
- Prior distribution Q에서 Posterior distribution P로 이동할 때 얻어지는 information. Likelihood ratio approach로 확인
- Likelihood ratio: 값 x가 임의의 분포로 sampling되었을 때 분포 p에서 sampling되었을 확률, log likelihood ratio로 나타내면 다음과 같다. $$LR =\sum_{i=0}^n log( \frac{p(x_i)}{q(x_i)})$$
- Log likelihood ratio를 이용하여 각 sample에 대한 모종의 합(기댓값)으로 표현: KL Divergence
- 그 분포를 근사적으로 표현하는 확률분포 Q를 대신 사용할 경우: Cross Entropy크로쓰 엔트로피: 두 확률분포 간의 차이를 측정하는 지표
$$KL Divergence: \; D_{KL} (P || Q) \\ = \sum_{x \in \mathcal{X}} P(x) log( \frac{P(x)}{Q(x)}) \\ =\int_{-\infty}^{\infty} p(x) \; log(\frac{p(x)}{q(x)}) \\= H(P,Q) - H(P)$$
-
-
- 주의점
- 교환법칙이 성립하지 않는다. $$D_{KL}(P||Q) != D_{KL}(Q||P)$$
- X 두 분포간의 거리 개념/Distance metric
- 주의점
-
🪄On Deep Learning(Especially on Classificaion)..
Supervised learning에서는 GT인 True probability P가 존재하고, NN가 학습을 통해 Approximate Probability distribution Q를 배우게 된다. 이 때 P와 Q 사이의 거리를 최소화하도록 NN이 작용한다. Cross Entropy loss를 사용하여 classification이 이루어집니다. 즉, P에 대한 Entropy와 P, Q간의 KL Divergence의 합으로 KL Divergence를 최소화하는 방향으로 구성
$$ H(p,q)=H(p)+D_{KL}(p||q) = -\sum_{i=0}^n p(x_i)log_2 q(x_i)) = -log(q(x_i))$$
'Mathematics > Probability, Statistics, Information' 카테고리의 다른 글
[Probability] 3. Gaussian process, Gaussian Process Latent Variable Model(GPLVM) (0) | 2022.03.05 |
---|---|
[Probability] 2. Random Process, Random Variable, Functional analysis, Kernel function (0) | 2022.03.05 |
[Probability] 1. Probability Distribution: Gaussian Distribution (0) | 2022.02.19 |
[Probability] Gaussian, Bayesian 용어 정리 (0) | 2022.02.12 |
[Probability] Gaussian Process (0) | 2022.01.21 |