워드 투 벡터 (Word2Vec)

훈련을 위한 코딩 방법을 사용하여 텍스트를 디지털화하는 기존 마이닝
그 중 원-핫 코딩(one-hot coding)은 단어 집합의 크기를 벡터의 크기로 표현하고 표현하고자 하는 단어의 인덱스에 1의 값을 부여하고 나머지를 표현하는 벡터 표현 방법이다. 0으로.
예를 들어 다음과 같은 단어 집합이 있다고 가정해 보겠습니다.
“고양이,예쁜,강아지,귀엽고…그외,놀아요”
생략된 단어를 포함하여 100개의 단어가 있는 경우 고양이 단어에 대한 원-핫 인코딩은 다음과 같습니다.
( 1 0 0 0 0….(생략)…. 0 0 0 ) 첫 번째 고양이의 index는 1, 나머지는 0으로 표현
기쁨을 표현하기 위한 원-핫 코딩은 다음과 같습니다.
( 0 1 0 0 0 … (생략) … 0 0 0)
※ 이와 같이 매우 적은 수의 인덱스만을 사용하여 데이터를 표현하고 나머지는 의미 없는 값으로 표현하는 것을 희소 표현(sparse expression)이라고 합니다.

직관적으로 이 원-핫 인코딩은 다음과 같은 두 가지 문제가 있습니다.

1. 공간 문제
단어 모음이 커짐에 따라 특정 단어를 나타내기에는 너무 많은 공간이 사용됩니다.

2. 유사점을 찾을 수 없음
두 벡터는 항상 직교
따라서 코사인 유사도 등을 이용하여 유사도를 얻을 수 없다. 찾아봐도 0이니까!
전)

문서 1: 귀여운 고양이
문서 2: 귀여운 강아지

귀여운 하나 뜨거운 벡터: ( 1 0 0 )
고양이 원-핫 벡터: ( 0 1 0 )
개의 원-핫 벡터: ( 0 0 1 )

코사인 유사성을 찾으려면 어떻게 해야 합니까?


임베딩은 이러한 코딩 문제를 모두 해결할 수 있습니다.
원-핫 인코딩에 비해 저차원 디스플레이라고 볼 수 있습니다.
저차원의 벡터
벡터 간의 유사도를 얻을 수 있습니다.

Embed로 표현하는 방법은 여러가지가 있습니다.
알려진 방법은 다음과 같습니다.
LSA, Word2Vec, FastText, 글러브

그 중 word2vec에 대해 이야기하고 싶습니다.
Word2vec의 가정은 유사한 문맥에 나타나는 단어는 유사한 의미를 가지며 벡터 값을 갖는다는 분산 가설에 기반합니다.

Word2vec을 배우는 방법에는 두 가지가 있습니다.
1. Cbow: 주변 단어에서 중심 단어 예측
2. Skip-gram: 중심 단어로 주변 단어 예측
창 크기는 주변 단어의 수입니다.
예: 뚱뚱한 고양이가 매트 위에 앉았습니다.
1. Cbow 예상 단어: At sat
창 크기: 2이면 주변 단어는 뚱뚱한 고양이
의지에

창의 크기가 정해지면 하나씩 옆으로 밀어서 학습용 데이터셋을 만든다(이 방법이 슬라이딩 창이다. ㅛ현)


이때 cbow 인공신경망 다이어그램은 다음과 같다.


여기
적절한 입구의 뚱뚱한 고양이와
sat의 출력 대응 ​​단어 표현은 원-핫 벡터입니다.
투영층은 인공신경망의 은닉층에 해당하지만 은닉층과 달리 활성화 기능이 없다.


여기서 m은 임베딩 벡터의 크기입니다.
그리고 임베딩 벡터로 훈련된 w를 사용합니다.
또는 w와 w’의 평균을 임베딩 벡터로 사용합니다.

입력 레이어 cat을 예로 들어 보겠습니다.
이것은 원-핫 벡터이므로 제품은 중량 기준입니다.
고양이 지수에 대한 가중치를 얻는 것과 같습니다.
Fat Cat on the All은 해당 위치에 대한 가중치만 가져옵니다. (연결하여 조회 테이블이라고 합니다.)


수집된 벡터는 투영 레이어에서 평균화됩니다.
평균을 내야 하므로 n은 창 크기입니다.


투영 레이어를 거친 후 두 번째 가중치 w’를 곱합니다.
그런 다음 softmax 함수의 값을 가져와서 0과 1 사이의 값으로 표시합니다(각 요소의 합은 1임).

그런 다음 오류를 줄이기 위해 교차 엔트로피를 손실 함수로 사용합니다.
이후 w와 w’는 역전파(backpropagation)를 통해 학습된다.


학습이 완료되면 m차원 w 벡터의 각 행이 임베딩 벡터로 사용됩니다.
또는 w 및 w’의 평균값 라인을 사용합니다.

2. 그램 건너뛰기
Skip gram은 중심 단어로 주변 단어를 예측하므로 입력과 출력만 변경되었습니다.
계산 과정은 비슷합니다

Skip Gram은 Cbow보다 성능이 좋은 것으로 알려져 있습니다.