언어모델 GPT

자연어 처리/Today I learned :

언어모델 GPT

주영 🐱 2023. 1. 17. 11:40

728x90

BERT 가 트랜스포머의 인코더를 활용했다면, GPT는 트랜스포머의 디코더만 활용합니다. 디코더 중에서도 encoder-decoder attention이 빠진 디코더만 사용합니다.

Masked Multi-Head Attention에서 일어나는 일을 보면,

제가 계속 예시로 드는 문장을 가져와 적용해보겠습니다.

'나는 토끼를 키워. 모든 사람이 그를 좋아해'라는 문장에서 처음에는 나는을 뺴고 모두 마스킹처리해줍니다. 나는 만보고 토끼를 을 예측할 수 있도록 하기 위해서 토끼를에 확률을 높이는 식으로 업데이터하며 학습이 진행됩니다.

그리고 나는 토끼를 만으로 키워를 예측할 수 있게 , 키워에 확률을 높이는 방식으로 학습을 수행합니다. BERT에서는 가운데 단어를 [MASK]로 처리하고 앞과 뒤 단어들을 보고 가운데 마스킹처리된 단어를 예측하는 식으로 프리트레인을 했었었는데, GPT에서는 이런 방식으로 할 수 없습니다. 그 이유는 바로 구조적인 차이에 있기 때문인데,

BERT는 양방향 트랜스포머 모델인 반면, GPT는 그렇지 않다는 것을 볼 수 있습니다. GPT는 순차적으로 학습이 이루어지는 것이죠

GPT는 쌓는 디코더 개수에 따라 small 부터 large 모델로 불립니다.

현재는 GPT-3 모델까지 나왔으며 앞으로 더 나오고 성능도 좋아질 것이라 보고 있습니다.

간단하게 GPT-2를 수행하는 것을 코드로 살펴보겠습니다.

huggingface의 transformers 모듈을 사용하면 쉽게 수행할 수 있습니다.

pip install transformers

from transformers import GPT2LMHeadModel, GPT2Tokenizer

model = GPT2LMHeadModel.from_pretrained("gpt2")

tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

input_ids = tokenizer.encode("Some text to encode", return_tensors='pt')

generated_text_samples = model.generate(

input_ids,

max_length=150,

num_return_sequences=5,

no_repeat_ngram_size=2,

repetition_penalty=1.5,

top_p=0.92,

temperature=0.85,

do_sample=True,

top_k=125,

early_stopping=True

)

for i, beam in enumerate(generated_text_samples):

print("{}: {}".format(i, tokenizer.decode(beam, skip_special_tokens=True)))

print()

저작자표시 비영리 변경금지

'자연어 처리 > Today I learned :' 카테고리의 다른 글

자연어 처리에서의 하이퍼 파라미터 종류, 설정 (0)	2023.01.20
자연어처리 모델이 태스크를 수행하는 방법은? (인 컨텍스트 러닝, 제로샷, 원샷 퓨샷 러닝) (0)	2023.01.17
버트를 활용한 영화리뷰 분류 (0)	2023.01.16
허깅페이스의 트랜스포머 🤗 Huggingface's Transformers (0)	2023.01.16
트랜스포머와 어탠션 정리 --2 (0)	2023.01.16

현재글언어모델 GPT

TIL

배당투자, 1인개발, 오블완, 오픽모의고사, 특수문자이모티콘, 오픽, 데이터시각화, 오픽AL, 안드로이드앱개발, 오픽공부법, 오픽IH, 딥러닝, 오픽1주, 안드로이드개발, 오픽 AL, 오픽 모의테스트, 1인개발자, 배당투자계산기, 오픽기출, 티스토리챌린지,

Today :
Yesterday :

TIL