Mathematics/Linear Algebra

[Linear Algebra] L1/L2 Norm, Loss

이 글은 필자가 이해한 부분을 정리하고자 작성된 글입니다. 참고한 블로그 글은 링크1 입니다.

 

🧘‍♂️ Norm, L1/L2 Norm

  • Norm: 두 벡터 사이의 길이/크기를 나타내는 방법
    • xp:=(i=1nxip)1/p
  • 대표적인 Norm인 L1, L2 norm p=(p1,p2,...,pn)andq=(q1,q2,...,qn)
    • L1 Norm: 절댓값의 합 d1(p,q)=∥pq1=i=1npiqi
    • L2 Norm: 흔히 알고 있는 유클리디안 distance로 unique shortest path를 가진다. d2(p,q)=∥pq2=i=1npiqi2

🧘‍♂️ Deep Learning에서의 L1/L2 Norm은 어떻게 사용되는가?

: 실제값과 예측치 사이의 차이, 즉 오차인 d(yi,f(xi)) 를 구하기 위해 사용된다. Loss function을 정의할 때 사용되며 여기에 추가하여 robust한 모델을 만들기 위해 regularization loss를 반영할 때도 regularization loss도 사용된다.

  • Loss
    • L1 Loss L1=i=1nyif(xi)
      • L2에 비해 Outlier에 대해 Robust하다: Outlier가 적당히 무시되고 싶다면
      • 0인 지점에서 미분이 불가능하다.
      • LAD, LAE, LAV, LAR, Sum of absolute derivations
    • L2 Loss L2=i=1n(yif(xi))2
      • 오차의 제곱이 곱해지므로 outlier에 큰 영향을 받는다: Outlier의 등장에 신경써야 하는 경우 사용 / 대부분 사용된다.
      • LSE, MSE
  • Regularization loss: 가중치의 크기가 포함되면서 가중치가 너무 크지 않은 방향으로 학습 L1/L2 Regularization 정리
    • L1 Regularization Cost=1ni=1nL(yi,yi^)+fracλ2w
    • L2 Regularization Cost=1ni=1nL(yi,yi^)+fracλ2w2