자연어 처리에서의 하이퍼 파라미터 종류, 설정

자연어 처리/Today I learned :

자연어 처리에서의 하이퍼 파라미터 종류, 설정

주영 🐱 2023. 1. 20. 11:40

728x90

하이퍼 파라미터

하이퍼 파라미터 란 사람이 수동으로 조정하는 파라미터이다. 하이퍼 파라미터를 잘 조정하면 성능이 개선될 수 있다. 다음과 같은 종류가 있다. 이번에는 딥러닝에서 우리가 조작할 수 있는 하이퍼 파라미터에 대해 알아보고 튜닝(조정)하는 방법들도 정리해보고자 한다.

Model-free hyperparameters ( 모델과 관련 없는 하이퍼파라미터)

learning rate

pytorch 에서는 learning rate scheduler를 제공한다. 총 두 가지가 있다.

1. LambdaLR

2. stepLR

batch size

- 클수록 좋다, 주어진 GPU의 메모리를 보고 최재의 배치사이즈를 설정하는 것이 성능이 좋다고 알려져 있다.

배치 사이즈가 크면, 한번 학습할때 보는 이미지/텍스트 데이터가 늘어나게 된다. outlier(이상치)에 대해 과적합되지 않고, 학습이 빠르다

(예를 들어 학습을 1번할 때 이미지를 한장씩 꼼꼼히 보는 경우와 100장씩 보는 경우를 비교해보면 100장을 볼때 과적합이 적고 100장의 공통된 feature를 학습할 수 있기 때문에 100장씩 보는 경우가 좋다. )

epoch

학습 횟수이다. 크면 클수록 학습을 많이 하게되기 때문에 학습 시간도 늘어나게 된다.

optimizer

우리가 아는 옵티마이저이다. 위 사진과 같은 다양한 종류의 옵티마이저를 사용할 수 있으며 최근에는 Adam 을 사용하는 것이 보편적이다.

Adam 을 사용한다면, beta1, beta2의 값이 중요한 하이퍼파라미터가 될 것이다.

Weight initialization

모델을 어떻게 초기화할 것인가?에 대한 것으로

weight를 zero로 패딩, 랜덤하게 학습시킬 수도 있다.

x를 가지고 y^(y hat)을 예측하는 과정을 보면, x를 encoder(pre-trained LM, 보통은 BERT)를 거쳐 Z벡터를 거쳐, fully connected layer를 거침으로써 예측값이 도출된다. fully connected layer 는 기존에 있는 가중치를 가져올 수 있지만, 새로운 데이터셋을 사용할 경우에 새로 초기화 하거나 스크래치부터 즉 바닥부터 다시 만들어야 하는 경우가 있다.

이럴때 정규분포를 사용하거나, uniform, Xavier initialization, He initialization 등을 사용한다. Xavier initialization 은 sigmoid 기반이고 He 는 ReLU 기반이다.

Early stop strategy

모델 학습을 할 때 에포크를 500으로 하고, 돌리는 중 Loss 400 = 0.005 이고, Loss 390~399번째 0.0052 로 별 차이가 없을 때 더이상 성능이 좋아지지 않는다라고 판단할 시 400에포크에서 모델 학습을 멈추는 조기종료를 설정할 수 있다.

조기 종료의 기준 값은 loss일 수 도 있고, val set acc 나 F1 score일 수도 있다.

Regularization

L1 norm, L2 norm 두 종류가 있으며 L1 norm, L2 norm중에 선택한다.

Drop out

node 와 weight를 모두 삭제 시킬 것인지, weight의 일부만 삭제 시킬 것인지, 퍼센트는 몇으로 설정할 것인지 등등에 대해 설정할 수 있다.

Perturbation or noise for an input

Perturbation = 섞는다

input 자체에서 일부러 노이즈를 발생시키는 기법으로 자연어 처리에서 인풋데이터에 일부러 오타를 넣거나 문법을 틀리게 넣는 등의 노이즈를 추가한다. 혹은 공백을 다른 곳에 넣어 문법을 틀리게 유도한다.

노이즈 벡터는 성질은 원 데이터와 비슷하다. 예를 들어 텍스트 분류문제중에 감성분석을 보면, 어법이 조금 맞지 않거나 오타가 있는 문장도 긍정으로 분류될 수 있다. 이런 노이즈 벡터에 대한 분류 성능을 높여주면 오타나 인터넷 용어 같은 말에도 분류를 확실하게 할 수 있을 것이다.

어떤 방식으로 노이즈를 줄지, 노이즈를 추가한 데이터는 얼마나 발생시킬지에 대해 결정한다.

Model hyperparameters ( 모델의 구조적 특징과 관련된 하이퍼파라미터)

Kernel size

- ex) CNN filter size , 3x3, 5x5, 7x7

number of layer

number of hidden units

- BERT의 경우 multi-head 개수, 보통 12개 지만 너무 많다 하면 8개로 줄이기도 함

number os embedding units

pooling

- filter stride

activation function

- ReLU, GeLU, tanh

1. learning rate scheduler 없이 모델을 train 시켜본다. check initial loss

2. 샘플 중 20%정도만 가져와서 최고성능 보기 (100%찍을 수 있는가?)

- loss가 작아지지 않는다면 ? lr too low, bad initialization

- loss 가 inf or NAN 로 간다? lr too high, bad initialization

-- 좋은 모델과 러닝 레이트를 얻고

3. 러닝레이트 찾기

- iter할 수록 lr 줄이는 방향으로

- 1e-1, 1e-2, 1e-3, 1e-4 try

4. 그리드 서치

- weight decay : 1e-4, 1e-5,0

6. loss curve 확인

처음에 많이 안줄어든다 - bad initialization

특정 이후에 로스가 서서히 준다.- 그시점부터 lr스케쥴러 적용

특정 이후에 학습이 잘 안된다. - lr decay

저작자표시 비영리 변경금지

'자연어 처리 > Today I learned :' 카테고리의 다른 글

코랩 프로, 프로 플러스 써본 후기 (0)	2023.01.21
model.train() 과 model.eval()의 스위칭은 필수일까? (0)	2023.01.20
자연어처리 모델이 태스크를 수행하는 방법은? (인 컨텍스트 러닝, 제로샷, 원샷 퓨샷 러닝) (0)	2023.01.17
언어모델 GPT (1)	2023.01.17
버트를 활용한 영화리뷰 분류 (0)	2023.01.16

현재글자연어 처리에서의 하이퍼 파라미터 종류, 설정

TIL

티스토리챌린지, 오픽 모의테스트, 오블완, 오픽IH, 오픽기출, 오픽, 마케팅, 안드로이드개발, 딥러닝, 오픽공부법, 배당투자계산기, 오픽모의고사, 특수문자이모티콘, 오픽 AL, 1인개발마케팅, 1인개발, 배당투자, 오픽AL, 오픽1주, 1인개발자,

Today :
Yesterday :

TIL