transfomers 를 사용한 간단한 분류 예제(BertForSequenceClassification)

자연어 처리/Today I learned :

transfomers 를 사용한 간단한 분류 예제(BertForSequenceClassification)

주영 🐱 2023. 1. 12. 14:03

728x90

https://huggingface.co/docs/transformers/model_doc/bert#transformers.BertForSequenceClassification

BERT

call < source > ( input_ids: typing.Union[typing.List[tensorflow.python.framework.ops.Tensor], typing.List[numpy.ndarray], typing.List[tensorflow.python.keras.engine.keras_tensor.KerasTensor], typing.Dict[str, tensorflow.python.framework.ops.Tensor], typin

huggingface.co

거의 모든 자연어처리 테스크에는 트랜스포머 모듈을 사용하게 된다.

이번에는 사전학습된 모델인 BERT를 가지고 간단한 분류 예제를 해보며 transformers를 맛보기?할 계획이다.

먼저 BERT의 MLM을 확인해보자.

pip install transformers

from pprint import pprint

from transformers import BertConfig, BertForMaskedLM

from transformers.models.bert.tokenization_bert_fast import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained("bert-base-uncased")

encodings2 = tokenizer("We are very happy to [MASK] you the Transformers library.", return_tensors="pt")

pprint(encodings2)

model= BertForMaskedLM.from_pretrained("bert-base-uncased")

outputs=model(**encodings2)

print(outputs)

print(outputs.logits.argmax(dim=-1))

의 결과로

We are very happy to [MASK] you the Transformers library 요 문장이

'input_ids': tensor([[ 101, 2057, 2024, 2200, 3407, 2000, 103, 2017, 1996, 19081,

3075, 1012, 102]]),

에서

tensor([[ 1012, 2057, 2024, 2200, 7537, 2000, 2265, 2017, 1996, 19081,

3075, 1012, 1012]])

으로 바뀌었다는 것을 볼 수 있다.

비교해보면, 3407->7537 103->2265로 바뀌었다.

여기서 103은 MASK 토큰이다.

그럼 바뀐 문장 즉, BERT가 예측한 문장은 무엇인지 보면,

print(tokenizer.decode(outputs.logits.argmax(dim=-1).squeeze(0)))

'''we are very pleased to show you the transformers library..

happy는 pleased로 바뀌었고, show가 확률이 제일 높음 - mlm이 잘 되어있음을 확인할 수 있다.

https://huggingface.co/docs/transformers/model_doc/bert#transformers.BertForSequenceClassification

영화 리뷰 데이터로 분류를 트레인해보기

pip install transformers
pip install datasets

from datasets import load_dataset
data = load_dataset("imdb")

import torch
from transformers import BertTokenizer, BertForSequenceClassification

model = BertForSequenceClassification.from_pretrained("bert-base-uncased")
#bert-base-uncased은 mlm기반학습- BertForSequenceClassification에 해당하는 가중치만 학습됨
from pprint import pprint
from transformers import BertConfig, BertForMaskedLM
from transformers.models.bert.tokenization_bert_fast import BertTokenizerFast
 
 #전처리
import re

def preprocess(sample):
return{
'text': ' '.join(re.sub(r'<[^(?:/>)]+/>',' ',sample['text']).split()),
'label':sample['label']
}

preprocessed = data.map(preprocess)

preprocessed

DatasetDict({

train: Dataset({ features: ['text', 'label'], num_rows: 25000 })

test: Dataset({ features: ['text', 'label'],

num_rows: 25000 })

unsupervised: Dataset({ features: ['text', 'label'], num_rows: 50000 })

})

from transformers import BertTokenizer
tokenizer=BertTokenizer.from_pretrained("bert-base-uncased",use_fast=True)#BertTokenizerfast로 됨

#or

from transformers import AutoTokenizer
tokenizer=AutoTokenizer.from_pretrained("bert-base-uncased",use_fast=True)

preprocessed = preprocessed.map(
    lambda sample: tokenizer(sample['text'],truncation=True),#truncation-길이가 길면 자름 512넘으면 자름
    remove_columns=['text'],
    batched=True
)
#1000개 문장을 배치로 잘라 전처리

#패딩이 안맞는경우 하나의 배치를 만들어야하는경우
from transformers import DataCollatorWithPadding
collator = DataCollatorWithPadding(tokenizer)

from torch.utils.data import DataLoader
train_loader = DataLoader(preprocessed['train'],batch_size=16, collate_fn=collator, shuffle=True)

from transformers import BertForSequenceClassification

model = BertForSequenceClassification.from_pretrained("bert-base-uncased")

#or

from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased")

import torch   #finetuning할때 mlm으로 학습되지 않은 부분 학습시키고싶다!
optimizer = torch.optim.AdamW(
    [
        {"params":model.bert.parameters(), "lr":3e-5},
        {"params":model.classifier.parameters(), "lr":1e-3},
    ]
)

model.train()
for epoch in range(3):
  print(f"Epoch: {epoch}")
  for encodings in train_loader:
    encodings = {key:value.cuda() for key,value in encodings.items()}
    outputs = model(**encodings)
    outputs.loss.backward()
    print('\rLoss: ',outputs.loss.item(),end='')
    optimizer.step()
    optimizer.zero_grad(set_to_none=False)

loss가 점점 줄어듦을 확인

이 과정을 허깅페이스의 trainer를 써서 하면 손쉽게 할 수 있음

https://huggingface.co/docs/transformers/main_classes/trainer#transformers.TrainingArguments

Trainer

When using gradient accumulation, one step is counted as one step with backward pass. Therefore, logging, evaluation, save will be conducted every gradient_accumulation_steps * xxx_step training examples.

huggingface.co

#from transformers import DataCollatorWithPadding
#from transformers import AutoModelForSequenceClassification 까지는 실행 후
from transformers import TrainingArguments, Trainer
training_args = TrainingArguments(
    num_train_epochs=3.0,
    per_device_train_batch_size=16,
    output_dir='dump/test'
)
trainer = Trainer(
    model=model,
    args=training_args, 
    train_dataset= preprocessed['train'],
    eval_dataset=preprocessed['test'],
    data_collator=collator

)
trainer.train()

저작자표시 비영리 변경금지

'자연어 처리 > Today I learned :' 카테고리의 다른 글

트랜스포머와 어탠션 정리 --2 (0)	2023.01.16
트랜스포머와 어탠션 정리 --1 (1)	2023.01.15
Word Embedding (0)	2023.01.05
[자연어 처리] 파이토치 LSTM 구현 (0)	2023.01.05
[자연어 처리] RNN을 보완하는 LSTM과 GRU (0)	2023.01.05

현재글transfomers 를 사용한 간단한 분류 예제(BertForSequenceClassification)

TIL

1인개발, 마케팅, 1인개발마케팅, 특수문자이모티콘, 안드로이드개발, 오픽1주, 딥러닝, 오픽IH, 오픽 모의테스트, 오픽, 오픽 AL, 오픽모의고사, 1인개발자, 배당투자계산기, 오블완, 오픽공부법, 오픽AL, 오픽기출, 배당투자, 티스토리챌린지,

Today :
Yesterday :

TIL