01
문돌이 존버/데이터 분석
2021. 11. 11.
트랜스포머(Transformer) 간단히 이해하기 (2)
본 글은 "딥 러닝을 이용한 자연어 처리 입문"을 학습하며 작성한 것입니다. 중간중간 제가 이해한 내용을 좀 더 풀어서 썼습니다. 문제가 된다면 비공개 처리하겠습니다. 지난 1편에 이어 계속 설명하겠습니다. 어텐션 스코어 행렬에 소프트맥스 함수를 사용하고, V 행렬을 곱하는 과정을 거치면 각 단어의 어텐션 값을 모두 가지는 어텐션 값 행렬이 나온다고 했습니다. 트랜스포머 논문에 기재된 수식은 아래와 같습니다. Attention(Q,K,V)=softmax(QKT√dk)V 위의 행렬 연산에 사용된 행렬의 크기를 모두 정리해봅시다. 우선 입력 문장의 길이를 seq_len이라고 한다면 문장 행렬의 크기는 (seq_len,dmodel)입니다. 여기에 3개..