[NLP] 1. Introduction of NLP, Word2vec

자연어를 처리하는 분야, 우리의 말을 컴퓨터에게 이해시키기 위한 분야를 의미합니다. 자연어는 살아있는 언어이며 그 안에는 '부드러움'이 있습니다.

시소러스(Thesaurus, 유의어 사전) 활용
- 단어 네트워크(사람의 손으로 만든 유의어 사전)를 이용하는 방법이다. 단어 사이의 '상위와 하위' 혹은 '전체와 부분' 등 더 세세한 관계까지 정의해둔다. ex. Car = auto, automobile, machine, motorcar
- 대표적인 시소러스는 WordNet(NLTK 모듈)이 존재한다.
- Cons: 사람이 수작업으로 레이블링하는 번거로움/시대 변화에 대응하기 어렵다./단어의 미묘한 차이를 표현할 수 없다.
말뭉치(Corpus) 활용한 통계 기반 기법: 대량의 텍스트 데이터를 활용하는 방법. 즉, 문장들에서 자동으로 효율적으로 핵심을 추출하는 방식
추론 기반 기법

이 중에서 통계 기반 기법과 추론 기반 기법이 성공적인 기법입니다. 이 둘은 분산 가설을 바탕으로 분산 표현을 하고자 합니다.

대량의 텍스트 데이터를 활용하는 방법. 즉, 문장들에서 자동으로 효율적으로 핵심을 추출하는 방식 (대표적인 데이터셋: Penn Tree Bank)

분포 가설을 바탕으로 동시발생 행렬(Co-occurance matrix, 단어에 대해 동시 발생하는 단어를 행렬로 정리)을 구성하여 단어를 벡터로 표현한다.
벡터(단어) 사이의 유사도(ex. 코사인 유사도)를 구해 행렬에 SVD를 적용하여 밀집벡터(단어의 분산 표현)을 얻는 방법이 존재한다.

맥락을 입력하면 모델은 각 단어의 출현 확률을 출력한다.

맥락으로부터 타깃을 추측하는 용도의 신경망

맥락: 주변 단어, 타깃: 중앙 단어 --> 맥락을 원핫 표현으로 변환하여 CBOW 모델이 단어를 추론한다.
Loss function(NLL) $L = - \frac{1}{T} \sum_{t = 1}^{T} l o g P (w_{t} | w_{t - 1}, w_{t + 1})$

CBOW에서 다루는 맥락과 타깃을 역전시킨 모델로 중앙의 단어(타깃)으로부터 주변의 여러 단어(맥락)을 추측한다.

맥락: 주변 단어, 타깃: 중앙 단어 --> 맥락을 원핫 표현으로 변환하여 CBOW 모델이 단어를 추론한다.
Loss function(NLL) $L = - \frac{1}{T} \sum_{t = 1}^{T} (l o g P (w_{t} | w_{t - 1}) + l o g P (w_{t} | w_{t + 1}))$

[CS182 Sergey Levine] Deep Learning - NLP Basics (0)	2022.04.19
[NLP] 4. Modern Recurrent Neural Networks: Seq2Seq (0)	2022.02.12
[NLP] 3. Modern Recurrent Neural Networks: GRU, LSTM (0)	2022.02.05
[NLP] 2. RNN Basics: Language Model (0)	2022.02.01
[NLP] RNN 예제로 살펴보는 RNN 맛보기 (0)	2019.09.10

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

티스토리툴바