Mathematics/Probability, Statistics, Information

[Information theory] Information/Entropy/Cross Entropy/KL Divergence

본 글은 위 링크를 참조하여 정리한 글입니다.

🪄Entropy/Cross Entropy/KL Divergence

  • 특정 stochastic 확률을 띄는 사건 X
    • 일어날 Probability확률 P(X)
    • Information정보량: 주어진 이벤트에서 발생하는 놀라움의 양 (ex. 동전 던지기) I(X) $$Information \; I(X) = -log_2 P(X)$$
    • Entropy엔트로피: 임의의 이벤트에서 발생한 Information(놀라움)의 평균/기댓값 H(X) $$Entropy \; H(X) = E(I(X)) = -\sum P(X)log_2 P(X)$$
  • 사건 P가 확률분포를 가질 때
    • 그 분포를 근사적으로 표현하는 확률분포 Q를 대신 사용할 경우: Cross Entropy크로쓰 엔트로피: 두 확률분포 간의 차이를 측정하는 지표
      • 두 확률 분포 P,Q 사이의 차이를 측정하는 지표 $$H(P,Q) = -\sum P(X)log_2 Q(X) = E_P(I_Q(X))$$ $$Cross Entropy: \; H(P,Q) = H(P) + D_{KL}(P || Q)$$
    • 두 확률 분포 간의 KL Divergence: 놀라움의 표현(높다=두 확률 분포가 가깝지 않다=놀라움)
      • 얼마나 sampled data가 P 분포로부터 나왔는지 나타내는 likelihood Ratio의 기댓값
      • Prior distribution Q에서 Posterior distribution P로 이동할 때 얻어지는 information. Likelihood ratio approach로 확인
        1. Likelihood ratio: 값 x가 임의의 분포로 sampling되었을 때 분포 p에서 sampling되었을 확률, log likelihood ratio로 나타내면 다음과 같다. $$LR =\sum_{i=0}^n log( \frac{p(x_i)}{q(x_i)})$$
        2. Log likelihood ratio를 이용하여 각 sample에 대한 모종의 합(기댓값)으로 표현: KL Divergence  

$$KL Divergence: \; D_{KL} (P || Q) \\ = \sum_{x \in \mathcal{X}} P(x) log( \frac{P(x)}{Q(x)}) \\ =\int_{-\infty}^{\infty} p(x) \; log(\frac{p(x)}{q(x)}) \\= H(P,Q) - H(P)$$

      • 주의점
        • 교환법칙이 성립하지 않는다. $$D_{KL}(P||Q) != D_{KL}(Q||P)$$
        • X 두 분포간의 거리 개념/Distance metric 

 

🪄On Deep Learning(Especially on Classificaion)..

Supervised learning에서는 GT인 True probability P가 존재하고, NN가 학습을 통해 Approximate Probability distribution Q를 배우게 된다. 이 때 P와 Q 사이의 거리를 최소화하도록 NN이 작용한다. Cross Entropy loss를 사용하여 classification이 이루어집니다. 즉, P에 대한 Entropy와 P, Q간의 KL Divergence의 합으로 KL Divergence를 최소화하는 방향으로 구성

 $$ H(p,q)=H(p)+D_{KL}(p||q) = -\sum_{i=0}^n p(x_i)log_2 q(x_i)) = -log(q(x_i))$$