[NLP 1] BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 리뷰

자연어 처리/논문 리뷰 (paper review)

[NLP 1] BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 리뷰 - Introduction & Related Works

주영 🐱 2022. 10. 29. 17:17

728x90

#스스로 공부하고 만든 내용입니다.

BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding

https://arxiv.org/abs/1810.04805 (원문)

자연어처리에서 가장 기본이 되고 중요한 논문 중 하나인 버트 논문입니다.

원문을 바탕으로 설명하였으며, 이해를 돕기 위한 몇 가지 한국어 예시를 리서치하여 넣었습니다!

아마 5부분으로 나누어 설명할 것 같습니다!

<목차>

- Introduction & Related Works

- Pre-training

- Fine-tuning

- Experiment

- Conclusion + koBert

BERT는 구글에서 개발한 NLP 사전 훈련 모델로, 특정 분야에 국한된 기술이 아니라 모든 자연어 처리 분야에서 좋은 성능을 내는 범용 언어 모델입니다. BERT는 트랜스포머의 양방향 인코더 표현(Bidirectional Encoder Representations from Transformers)의 약자입니다. BERT의 T가 Transformer인 만큼, BERT는 Transformer의 구조와 거의 흡사하지만, 기존 Transformer의 Encoder만을 활용한다는 점에서 차이가 있습니다.

인코더는 입력을 숫자로 바꾸는 모델이기에 BERT는 문맥을 양방향으로 이해하여 숫자로 바꾸는 딥러닝 언어 모델이라고 할 수 있습니다.

BERT는 Masked 언어 모델링(MLM)을 활용한 빈 칸 맞추기, 다음 문장 예측(NSP)이라는 사전 훈련 방법을 통해 정확성을 올렸습니다.

언어 모델에서 사전 학습은 paraphrasing과 같은 sentence-level tasks와 개체명 인식, 질의 응답과 같은 token-level tasks에 있어 효과적인 성능을 보입니다.

사전학습에서 언어 표현을 downstream task에 적용하는 방식에는 feature-based 와 fine-tuning이라는 두 가지 방식이 있습니다.

먼저 Feature-based 방식은 특정 task를 해결하기 위한 architecture를 task에 맞게 구성하고 거기에 사전 학습된 언어 표현을 추가적인 feature로 활용하는 방법으로, 두 개의 네트워크를 붙여서 사용하는 방법입니다. 대표적인 모델로는 ELMo가 있습니다.

엘모는 left-to-right로 읽는 forward와 + right-to-left로 읽는 backward LSTM을 결합한 언어모델입니다.

이러한 점에서는 양방향성을 가졌다고 할 수 있지만, 단순히 단방향과 단방향을 합쳤기에 얕은 양방향을 가진다고 할 수 있습니다.

그러나 양방향 언어 모델은 고퀄리티 언어표현이 가능해져 단어 특성이나 문맥에 따라 다르게 표현할 수 있다는 장점이 있습니다.

예를 들어 play라는 단어는 Glove에서는 playing,game,players와 같은 스포츠와 관련된 내용으로 학습되지만, ELMo에서는 연극을 play하다라는 의미와 스포츠를 play하는 것, 두 가지가 서로 다르게 임베딩되어 의미를 구별하는 것이 가능합니다.

다음으로 Fine-tuning 방식은 task에 맞게 최소한의 parameter만을 추가하고, pre-trained된 parameter들을 downstream task 학습을 통해 조금만 바꿔주는 방식입니다. fine-tuning의 대표적인 모델로는 OpenAI GPT가 있습니다.

GPT는 2018년 OpenAI에서 제시한 모델로, 문장 내 단어들을 왼쪽에서 오른쪽으로 보는 단방향 언어학습 모델입니다.

따라서 GPT는 이전 단어들이 주어졌을 때 다음 단어가 무엇인지 맞히는 과정에서 사전학습됩니다.

Transformer를 사용한 구조이기는 하지만 Encoder를 제외한 Decoder의 Masked self-attention을 사용하고 있습니다.

이는 n개의 decoder가 쌓여 있는 형태인데 최소한의 구조 변화로 task에 적용 가능한 모델입니다.

그림은 GPT와 BERT의 프리트레인 방식을 도식적으로 나타낸 것인데, GPT는 이전 단어들이 주어졌을 때 다음 단어가 무엇인지 맞추는 과정에서 프리트레인을 하고 문장의 시작부터 단방향으로 계산합니다.

그러나 BERT는 문장 중간에 빈칸을 만들고 빈칸에 어떤 단어가 적절한지 맞추는 과정에서 프리트레인을 하며 빈칸 앞뒤 문맥을 모두 살피는 양방향 모델입니다. 따라서 GPT는 문장 생성에, BERT는 문장의 의미를 추출하는데 강점을 지니고 있습니다.

GPT는 이전 단어들만 참고 할 수 있기 때문에 ‘거기' 를 맞추기 위해서 이전의 ‘어제',’카페',’갔었어’라는 단어만 참고할 수 있고

뒤에 있는 나머지 단어들은 마스킹처리 해줍니다.

BERT는 ‘거기'를 맞추기 위해서 MASK로 만들어주고 마스크 토큰 앞뒤 문맥인 ‘어제',’카페',’갔었어',’사람',’많더라'를 참고하여 예측합니다.

언급했던 세가지 언어모델을 간단하게 정리해보면 이 그림과 같이 구조적인 차이를 볼 수 있습니다.

ELMo는 독립된 Left-to-Right 언어모델과 Right-to-Left 언어모델을 각각 훈련시켜 concat함으로써 얕은 양방향 언어 모델을 만들었습니다. 그리고 GPT는 Left-to-Right의 단방향 언어모델입니다.

그림에서와 같이 이전 단어들로부터만 다음 단어를 예측할 수 있습니다.

GPT와 달리 BERT는 화살표가 양방향으로 뻗어나가는 모습을 볼 수 있는데, 이는 Masked 언어 모델을 통해 깊은 양방항성을 얻었기 때문입니다. 논문에서는 깊은 양방향성으로 문장의 의미를 추출하는데 강점이 있는 BERT를 통해 문맥 이해가 중요한 질의 응답과 같은 NLP task에서 성능을 높였습니다.

또한 이 논문에서는 Fine-tuning 기반 위주로 작성되었으나 후술하는 Feature-based에서도 좋은 결과를 보여주며, 최소한의 파라미터 수정만으로 대부분 NLP 과제에서 좋은 성능을 보였습니다.이전의 언어 모델과 달리, BERT는 모든 layer에서 양방향으로 context를 읽기에 문맥을 제대로 읽을 수 있기 때문입니다.실제로 BERT는 11개 NLP task에서 SOTA를 달성했다는 점에서 우수한 모델입니다

'자연어 처리 > 논문 리뷰 (paper review)' 카테고리의 다른 글

[NLP 1-2] BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding 논문리뷰 - 3 (0)	2022.10.31
[NLP 1-1] BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding 논문리뷰-2 (1)	2022.10.30

현재글[NLP 1] BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding 논문 리뷰 - Introduction & Related Works

TIL

오픽, 특수문자이모티콘, 티스토리챌린지, 1인개발자, 1인개발마케팅, 배당투자, 마케팅, 오블완, 오픽공부법, 오픽1주, 딥러닝, 오픽기출, 배당투자계산기, 오픽 AL, 안드로이드개발, 오픽모의고사, 오픽 모의테스트, 1인개발, 오픽IH, 오픽AL,

Today :
Yesterday :

TIL