[Information theory] Information/Entropy/Cross Entropy/KL Divergence

본 글은 위 링크를 참조하여 정리한 글입니다.

🪄Entropy/Cross Entropy/KL Divergence

특정 stochastic 확률을 띄는 사건 X
- 일어날 Probability확률 P(X)
- Information정보량: 주어진 이벤트에서 발생하는 놀라움의 양 (ex. 동전 던지기) I(X) $I n f o r m a t i o n I (X) = - l o g_{2} P (X)$
- Entropy엔트로피: 임의의 이벤트에서 발생한 Information(놀라움)의 평균/기댓값 H(X) $E n t r o p y H (X) = E (I (X)) = - \sum P (X) l o g_{2} P (X)$
사건 P가 확률분포를 가질 때
- 그 분포를 근사적으로 표현하는 확률분포 Q를 대신 사용할 경우: Cross Entropy크로쓰 엔트로피: 두 확률분포 간의 차이를 측정하는 지표
  - 두 확률 분포 P,Q 사이의 차이를 측정하는 지표 $H (P, Q) = - \sum P (X) l o g_{2} Q (X) = E_{P} (I_{Q} (X))$ $C r o s s E n t r o p y : H (P, Q) = H (P) + D_{K L} (P | | Q)$
- 두 확률 분포 간의 KL Divergence: 놀라움의 표현(높다=두 확률 분포가 가깝지 않다=놀라움)
  - 얼마나 sampled data가 P 분포로부터 나왔는지 나타내는 likelihood Ratio의 기댓값
  - Prior distribution Q에서 Posterior distribution P로 이동할 때 얻어지는 information. Likelihood ratio approach로 확인
    1. Likelihood ratio: 값 x가 임의의 분포로 sampling되었을 때 분포 p에서 sampling되었을 확률, log likelihood ratio로 나타내면 다음과 같다. $L R = \sum_{i = 0}^{n} l o g (\frac{p (x_{i})}{q (x_{i})})$
    2. Log likelihood ratio를 이용하여 각 sample에 대한 모종의 합(기댓값)으로 표현: KL Divergence

$K L D i v e r g e n c e : D_{K L} (P | | Q) = \sum_{x \in X} P (x) l o g (\frac{P (x)}{Q (x)}) = \int_{- \infty}^{\infty} p (x) l o g (\frac{p (x)}{q (x)}) = H (P, Q) - H (P)$

- - 주의점
    - 교환법칙이 성립하지 않는다. $D_{K L} (P | | Q)! = D_{K L} (Q | | P)$
    - X 두 분포간의 거리 개념/Distance metric

🪄On Deep Learning(Especially on Classificaion)..

Supervised learning에서는 GT인 True probability P가 존재하고, NN가 학습을 통해 Approximate Probability distribution Q를 배우게 된다. 이 때 P와 Q 사이의 거리를 최소화하도록 NN이 작용한다. Cross Entropy loss를 사용하여 classification이 이루어집니다. 즉, P에 대한 Entropy와 P, Q간의 KL Divergence의 합으로 KL Divergence를 최소화하는 방향으로 구성

$H (p, q) = H (p) + D_{K L} (p | | q) = - \sum_{i = 0}^{n} p (x_{i}) l o g_{2} q (x_{i})) = - l o g (q (x_{i}))$

저작자표시 비영리 동일조건

'Mathematics > Probability, Statistics, Information' 카테고리의 다른 글

[Probability] 3. Gaussian process, Gaussian Process Latent Variable Model(GPLVM) (0)	2022.03.05
[Probability] 2. Random Process, Random Variable, Functional analysis, Kernel function (0)	2022.03.05
[Probability] 1. Probability Distribution: Gaussian Distribution (0)	2022.02.19
[Probability] Gaussian, Bayesian 용어 정리 (0)	2022.02.12
[Probability] Gaussian Process (0)	2022.01.21

🪄Entropy/Cross Entropy/KL Divergence
🪄On Deep Learning(Especially on Classificaion)..

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[Information theory] Information/Entropy/Cross Entropy/KL Divergence

🪄Entropy/Cross Entropy/KL Divergence

🪄On Deep Learning(Especially on Classificaion)..

'Mathematics > Probability, Statistics, Information' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역