문돌이 존버/데이터 분석
2021. 11. 11.
트랜스포머(Transformer) 간단히 이해하기 (2)
본 글은 "딥 러닝을 이용한 자연어 처리 입문"을 학습하며 작성한 것입니다. 중간중간 제가 이해한 내용을 좀 더 풀어서 썼습니다. 문제가 된다면 비공개 처리하겠습니다. 지난 1편에 이어 계속 설명하겠습니다. 어텐션 스코어 행렬에 소프트맥스 함수를 사용하고, V 행렬을 곱하는 과정을 거치면 각 단어의 어텐션 값을 모두 가지는 어텐션 값 행렬이 나온다고 했습니다. 트랜스포머 논문에 기재된 수식은 아래와 같습니다. $Attention(Q, K, V) = softmax({QK^T \over \sqrt d_k}) V$ 위의 행렬 연산에 사용된 행렬의 크기를 모두 정리해봅시다. 우선 입력 문장의 길이를 $seq\_len$이라고 한다면 문장 행렬의 크기는 ($seq\_len, d_{model}$)입니다. 여기에 3개..