이 글은 필자가 이해한 부분을 정리하고자 작성된 글입니다. 참고한 블로그 글은 링크1 입니다.
🧘♂️ Norm, L1/L2 Norm
- Norm: 두 벡터 사이의 길이/크기를 나타내는 방법
- $${ \parallel x \parallel}_p := {(\sum_{i=1}^n {\mid x_i \mid}^p)}^{1/p} $$
- 대표적인 Norm인 L1, L2 norm $$p=(p_1, p_2, ..., p_n) \; and \; q = (q_1, q_2, ..., q_n) $$
- L1 Norm: 절댓값의 합 $$d_1(p,q) = \parallel p-q \parallel_1 = \sum_{i=1}^n \mid p_i-q_i \mid $$
- L2 Norm: 흔히 알고 있는 유클리디안 distance로 unique shortest path를 가진다. $$d_2(p,q) = \parallel p-q \parallel_2 =\sqrt{ \sum_{i=1}^n {\mid p_i-q_i \mid}^2} $$
🧘♂️ Deep Learning에서의 L1/L2 Norm은 어떻게 사용되는가?
: 실제값과 예측치 사이의 차이, 즉 오차인 $$d(y_i, f(x_i))$$ 를 구하기 위해 사용된다. Loss function을 정의할 때 사용되며 여기에 추가하여 robust한 모델을 만들기 위해 regularization loss를 반영할 때도 regularization loss도 사용된다.
- Loss
- L1 Loss $$L1 = \sum_{i=1}^n \mid y_i - f(x_i) \mid$$
- L2에 비해 Outlier에 대해 Robust하다: Outlier가 적당히 무시되고 싶다면
- 0인 지점에서 미분이 불가능하다.
- LAD, LAE, LAV, LAR, Sum of absolute derivations
- L2 Loss $$L2 = \sum_{i=1}^n {( y_i - f(x_i))}^2$$
- 오차의 제곱이 곱해지므로 outlier에 큰 영향을 받는다: Outlier의 등장에 신경써야 하는 경우 사용 / 대부분 사용된다.
- LSE, MSE
- L1 Loss $$L1 = \sum_{i=1}^n \mid y_i - f(x_i) \mid$$
- Regularization loss: 가중치의 크기가 포함되면서 가중치가 너무 크지 않은 방향으로 학습 L1/L2 Regularization 정리
- L1 Regularization $$Cost = \frac{1}{n} \sum_{i=1}^n {L(y_i, \hat{y_i}) + frac{\lambda}{2} \mid w \mid}$$
- L2 Regularization $$Cost = \frac{1}{n} \sum_{i=1}^n {L(y_i, \hat{y_i}) + frac{\lambda}{2} {\mid w \mid}^2}$$