[Linear Algebra] L1/L2 Norm, Loss

이 글은 필자가 이해한 부분을 정리하고자 작성된 글입니다. 참고한 블로그 글은 링크1 입니다.

🧘‍♂️ Norm, L1/L2 Norm

Norm: 두 벡터 사이의 길이/크기를 나타내는 방법
- ${∥ x ∥}_{p} := {(\sum_{i = 1}^{n} {∣ x_{i} ∣}^{p})}^{1 / p}$
대표적인 Norm인 L1, L2 norm $p = (p_{1}, p_{2}, . . ., p_{n}) a n d q = (q_{1}, q_{2}, . . ., q_{n})$
- L1 Norm: 절댓값의 합 $d_{1} (p, q) =∥ p - q ∥_{1} = \sum_{i = 1}^{n} ∣ p_{i} - q_{i} ∣$
- L2 Norm: 흔히 알고 있는 유클리디안 distance로 unique shortest path를 가진다. $d_{2} (p, q) =∥ p - q ∥_{2} = \sqrt{\sum_{i = 1}^{n} {∣ p_{i} - q_{i} ∣}^{2}}$

🧘‍♂️ Deep Learning에서의 L1/L2 Norm은 어떻게 사용되는가?

: 실제값과 예측치 사이의 차이, 즉 오차인 $d (y_{i}, f (x_{i}))$ 를 구하기 위해 사용된다. Loss function을 정의할 때 사용되며 여기에 추가하여 robust한 모델을 만들기 위해 regularization loss를 반영할 때도 regularization loss도 사용된다.

Loss
- L1 Loss $L 1 = \sum_{i = 1}^{n} ∣ y_{i} - f (x_{i}) ∣$
  - L2에 비해 Outlier에 대해 Robust하다: Outlier가 적당히 무시되고 싶다면
  - 0인 지점에서 미분이 불가능하다.
  - LAD, LAE, LAV, LAR, Sum of absolute derivations
- L2 Loss $L 2 = \sum_{i = 1}^{n} {(y_{i} - f (x_{i}))}^{2}$
  - 오차의 제곱이 곱해지므로 outlier에 큰 영향을 받는다: Outlier의 등장에 신경써야 하는 경우 사용 / 대부분 사용된다.
  - LSE, MSE
Regularization loss: 가중치의 크기가 포함되면서 가중치가 너무 크지 않은 방향으로 학습 L1/L2 Regularization 정리
- L1 Regularization $C o s t = \frac{1}{n} \sum_{i = 1}^{n} L (y_{i}, \hat{y_{i}}) + f r a c λ 2 ∣ w ∣$
- L2 Regularization $C o s t = \frac{1}{n} \sum_{i = 1}^{n} L (y_{i}, \hat{y_{i}}) + f r a c λ 2 {∣ w ∣}^{2}$

저작자표시 비영리 동일조건

🧘‍♂️ Norm, L1/L2 Norm
🧘‍♂️ Deep Learning에서의 L1/L2 Norm은 어떻게 사용되는가?

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[Linear Algebra] L1/L2 Norm, Loss

🧘‍♂️ Norm, L1/L2 Norm

🧘‍♂️ Deep Learning에서의 L1/L2 Norm은 어떻게 사용되는가?

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역