์ž์—ฐ์–ด ์ฒ˜๋ฆฌ/๋…ผ๋ฌธ ๋ฆฌ๋ทฐ (paper review)

[NLP 1-1] BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding ๋…ผ๋ฌธ๋ฆฌ๋ทฐ-2

์ฃผ์˜ ๐Ÿฑ 2022. 10. 30. 14:23
728x90
๋ฐ˜์‘ํ˜•

#์Šค์Šค๋กœ ๊ณต๋ถ€ํ•˜๊ณ  ๋งŒ๋“  ๋‚ด์šฉ์ž…๋‹ˆ๋‹ค.

BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding

https://arxiv.org/abs/1810.04805     (์›๋ฌธ)

 

์ด์ „ ๊ธ€๊ณผ ์ด์–ด์ง€๋Š” ๋‚ด์šฉ์ž…๋‹ˆ๋‹ค. 

 

- Introduction & Related Works

- Pre-training

- Fine-tuning

- Experiment

- Conclusion + koBert

BERT๋Š” ๋ฌธ๋งฅ์„ ๋ฐ˜์˜ํ•œ ์ž„๋ฒ ๋”ฉ(Conatextual Embedding)์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ด์ฃผ๋Š” ๋ฒ”์šฉ ์–ธ์–ด ํ‘œํ˜„ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

BERT๋Š” ํฌ๊ฒŒ pre-training(์‚ฌ์ „ ํ•™์Šต), fine-tuning(๋ฏธ์„ธ ์กฐ์ •) ๋‘ ๋‹จ๊ณ„๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Pre-training ๋‹จ๊ณ„์—์„œ ์œ„ํ‚คํ”ผ๋””์•„์™€ ๊ฐ™์ด ๋ ˆ์ด๋ธ”์ด ์—†๋Š” ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ(๋ง๋ญ‰์น˜,corpus)๋กœ ์‚ฌ์ „ ํ›ˆ๋ จ์„ ์‹œํ‚จ ๋ชจ๋ธ์„ ๊ฐ€์ง€๊ณ  fine-tuning ๋‹จ๊ณ„๋กœ ๋„˜์–ด๊ฐ€, ์—ฌ๋Ÿฌ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ํ…Œ์Šคํฌ์—์„œ ์ถ”๊ฐ€ ํ•™์Šต๊ณผ ํ•จ๊ป˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ(hyper-parameter)๋ฅผ ์žฌ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค.

 

์œ„ ๊ทธ๋ฆผ์—์„œ pre-training์—์„œ input์œผ๋กœ ๋“ค์–ด๊ฐ€๋Š” ๋ผ๋ฒจ๋ง ๋˜์ง€ ์•Š์€ ๋ฌธ์žฅ A์™€ B์˜ ์Œ์€ input sequence, ๋ถ„ํ™์ƒ‰ ๋ฐ•์Šค๋Š” input sequence๋“ค์ด ํ† ํฐํ™”๋œ ํ† ํฐ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ์œ„์— ๋…ธ๋ž€์ƒ‰ ๋ฐ•์Šค๋Š” ๊ทธ ํ† ํฐ๋“ค์ด ์ž„๋ฒ ๋”ฉ ๋ ˆ์ด์–ด๋ฅผ ๊ฑฐ์นœ, ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ์ด๊ณ , ์‹ ๊ฒฝ๋ง์„ ๊ฑฐ ๊ทธ์ƒ๋‹จ์˜ ์ดˆ๋ก์ƒ‰ ๋ฐ•์Šค์ธ ์ตœ์ข… ์€๋‹‰ ๋ฒกํ„ฐ๊ฐ€ ๋‚˜์˜ค๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. 

BERT์˜ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๋ณด๋ฉด, BERT๋Š” ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์ธ์ฝ”๋” ๋ถ€๋ถ„๋งŒ์„ ์—ฌ๋Ÿฌ ์ธต์œผ๋กœ ์Œ“์•˜๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

๋…ผ๋ฌธ์€ 2๊ฐ€์ง€ ํ‘œ์ค€ ๊ตฌ์กฐ ๋ชจ๋ธ, BERT_base์™€ BERT_large๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๋‘ ๋ชจ๋ธ์˜ ๊ตฌ์กฐ์ ์ธ ์ฐจ์ด๋ฅผ ๋ณด๋ฉด,

BERT_base๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ์ธ์ฝ”๋”๋ฅผ 12๊ฐœ์˜ ์ธต์œผ๋กœ ์Œ“์€ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๊ณ , BERT_large๋Š” 24๊ฐœ์˜ ์ธต์œผ๋กœ ์Œ“์•„์˜ฌ๋ฆฐ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. BERT_base์˜ ๊ตฌ์กฐ๋Š” ๊ธฐ์กด์— ์กด์žฌํ•˜๋˜ OpenAI GPT์™€์˜ ์„ฑ๋Šฅ ๋น„๊ต๋ฅผ ์œ„ํ•ด ๊ณ ์•ˆ๋œ ๋ชจ๋ธ์ด๊ธฐ์—, OpenAI GPT์™€ ๋™์ผํ•œ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ๊ฐ–๋„๋ก ์„ค๊ณ„๋˜์—ˆ๊ณ , BERT_large๋Š” BERT์˜ ์„ฑ๋Šฅ ๊ตฌ์กฐ๋ฅผ ๊ทน๋Œ€ํ™”ํ•œ ๋ชจ๋ธ๋กœ, BERT๊ฐ€ ๋‹ฌ์„ฑํ•œ SOTA๋Š” BERT_large๋กœ๋ถ€ํ„ฐ ๋‚˜์˜จ ๊ฒฐ๊ณผ๋ผ๊ณ  ๋ณด์‹œ๋ฉด ๋ฉ๋‹ˆ๋‹ค.

 

# ๋ฌธ์žฅ(sentence) ์‹œํ€€์Šค(sequence) ์žฌ์ •์˜

๋‘ ๋‹จ์–ด๋Š” ํ•ด๋‹น ๋…ผ๋ฌธ์—์„œ ์šฐ๋ฆฌ๊ฐ€ ์ผ๋ฐ˜์ ์œผ๋กœ ์•„๋Š” ๊ฒƒ๊ณผ๋Š” ์กฐ๊ธˆ ๋‹ค๋ฅด๊ฒŒ ์ •์˜ํ•˜๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๊ฐ ๋‹จ์–ด์˜ ์ •์˜๋ฅผ ์งš์–ด๋ณด์ž๋ฉด,  ์ผ๋ฐ˜์ ์œผ๋กœ ์ €ํฌ๊ฐ€ ์•Œ๊ณ  ์žˆ๋Š” ๋ฌธ์žฅ(sentence)์€ ์ฃผ์–ด์™€ ์„œ์ˆ ์–ด๋ฅผ ๊ฐ–์ถ”๊ณ  ์žˆ๋Š” ์–ธ์–ดํ•™์  ์˜๋ฏธ์—์„œ์˜ ๋ฌธ์žฅ์ด์ง€๋งŒ, ํ•ด๋‹น ๋…ผ๋ฌธ์—์„œ ์ •์˜ํ•˜๋Š” ๋ฌธ์žฅ(sentence)๋Š” ์—ฐ์†์ ์ธ ๋‹จ์–ด๋“ค ํ˜น์€ ํ…์ŠคํŠธ๋“ค์˜ ๋‚˜์—ด์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. (์—ฐ์†๋œ ํ…์ŠคํŠธ๋“ค์˜ ์ž„์˜์˜ ๋ฒ”์œ„)

๋”ฐ๋ผ์„œ, ์—ฌ๊ธฐ์„œ ์ด์•ผ๊ธฐํ•˜๋Š” ๋ฌธ์žฅ์€ ๊ตฌ๊ฐ€ ๋  ์ˆ˜๋„ ์žˆ๊ณ , ๋ฌธ์žฅ์ด๋‚˜ ๋ฌธ๋‹จ์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

์‹œํ€€์Šค(sequence)๋Š” BERT์˜ ์ธํ’‹ ํ† ํฐ ์‹œํ€€์Šค๋กœ, ์•ž์„œ ์ •์˜ํ•œ ๋ฌธ์žฅ์„ ๊ธฐ๋ฐ˜์œผ๋กœ, ๋‹จ์ผ ๋ฌธ์žฅ ํ˜น์€ ๋ฌธ์žฅ ์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

 

Tokenization ๊ณผ์ • - WordPiece

๋‹ค์‹œ BERT์˜ input ๊ณผ์ •์œผ๋กœ ๋Œ์•„์™€์„œ,  BERT๋Š” ๋ผ๋ฒจ๋ง๋˜์ง€ ์•Š์€ ๋‹จ์ผ ๋ฌธ์žฅ์ด๋‚˜ ๋ฌธ์žฅ ์Œ์„ํ•˜๋‚˜์˜ ํ† ํฐ ์‹œํ€€์Šค๋กœ input์„ ๋ฐ›๊ฒŒ ๋˜๋Š”๋ฐ,

ํ† ํฐํ™”์˜ ๊ณผ์ •์—์„œ BERT๋Š” WordPiece ํ† ํฌ๋‚˜์ด์ €๋ฅผ ์‚ฌ์šฉํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

 

# Workpiece Tokenizer

 WordPiece ํ† ํฌ๋‚˜์ด์ €๋Š” ๊ธฐ์กด์˜ ๋‹จ์–ด ๋‹จ์œ„๋กœ ํ† ํฐํ™” ํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ํ•œ ์ธต ๋” ๋‚˜์•„๊ฐ€์„œ,

์–ดํœ˜ ์‚ฌ์ „์— ์—†๋Š” ๋‹จ์–ด๋“ค์— ๋Œ€ํ•ด “## ing”์™€ ๊ฐ™์ด์–ธ์–ด์  ์˜๋ฏธ๋ฅผ ์œ ์ง€ํ•˜๋Š” ํ•œ๋„ ๋‚ด์—์„œํ•˜์œ„ ๋‹จ์–ด๋‹จ์œ„๋กœ ๋ถ„ํ• ํ•ด ํ…์ŠคํŠธ๋ฅผ ํ† ํฐํ™” ํ•˜๋Š” ๊ฒ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ† ํฐํ™”๋ฅผ ์ง„ํ–‰ํ•˜๊ฒŒ ๋˜๋ฉด ๋ชจ๋ธ์ด ์ธํ’‹์œผ๋กœ ๋“ค์–ด์˜จ ํŠน์ • ๋‹จ์–ด์— ๋Œ€ํ•ด ์•Œ์ง€ ๋ชปํ•˜๋Š” ๊ฒฝ์šฐ์— ๊ธฐ์กด์ฒ˜๋Ÿผ ๋‹จ์ˆœํžˆ “unknown”์œผ๋กœ ์ฒ˜๋ฆฌํ•ด๋ฒ„๋ฆฌ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๊ฐœ๋ณ„ํ•˜์œ„ ๋‹จ์–ดํ† ํฐ์„ ํ†ตํ•ด ์–ด๋Š ์ •๋„ ์˜๋ฏธ๋ฅผ ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๊ณ , ๊ทธ๋กœ ์ธํ•ด ์ƒˆ๋กœ์šด ๋‹จ์–ด์— ๋Œ€ํ•œ ์˜ˆ์ธก๋„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋˜๋ฉด์„œ์ •ํ™•๋„๋ฅผ ์ข€ ํ–ฅ์ƒ ์‹œ์ผœ์ฃผ๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

ํ† ํฌ๋‚˜์ด์ง• ๋œ ํ† ํฐ๋“ค์—๋Š” [CLS]๋ผ๊ณ  ํ•˜๋Š” ํŠน๋ณ„๋ถ„๋ฅ˜ํ† ํฐ๊ณผ [SEP]๋ผ๊ณ  ํ•˜๋Š” ํŠน๋ณ„๋ถ„๋ฆฌํ† ํฐ์ด ๋ถ™๊ฒŒ๋ฉ๋‹ˆ๋‹ค.

[CLS] ํ† ํฐ์€ ๋ชจ๋“  ์‹œํ€€์Šค์˜ ์ฒซ๋ฒˆ์งธ ํ† ํฐ์œผ๋กœ ์œ„์น˜ํ•˜์—ฌ ์‹œํ€€์Šค์˜ ์‹œ์ž‘๊ณผ ๋์„ ์•Œ๋ฆฌ๊ณ , ๋ถ„๋ฅ˜ ํ…Œ์Šคํฌ์—์„œ ํ™œ์šฉ๋˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๋ฐ˜๋ฉด์— [SEP] ํ† ํฐ์€ ๋ชจ๋“  ๋ฌธ์žฅ์˜ ๋์— ์ถ”๊ฐ€๋˜์–ด, ํ•œ ์‹œํ€€์Šค๋ฅผ ๊ตฌ์„ฑํ•˜๊ณ  ์žˆ๋Š” ๋‘ ๋ฌธ์žฅ์Œ์„ ๋ถ„๋ฆฌํ•ด์ฃผ๋Š” ์—ญํ• ์„ ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

 

 

์ด๋ ‡๊ฒŒ ํ† ํฐํ™”๊ฐ€ ์™„๋ฃŒ๋œ ๊ฐ ํ† ํฐ๋“ค์€ 3๊ฐ€์ง€ ์ž„๋ฒ ๋”ฉ ๋ ˆ์ด์–ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ž„๋ฒ ๋”ฉ๋˜์–ด BERT์˜ ์ธํ’‹์œผ๋กœ ๋“ค์–ด๊ฐ€๊ฒŒ ๋˜๋Š”๋ฐ,

์œ„ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด,

์ตœ์ข… ์ธํ’‹ ์ž„๋ฒ ๋”ฉ(Input Embedding) = ํ† ํฐ ์ž„๋ฒ ๋”ฉ(Token Embedding)+์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜ ์ž„๋ฒ ๋”ฉ(Segmentation Embedding)+ ํฌ์ง€์…˜ ์ž„๋ฒ ๋”ฉ(Position Embedding)์„ ๊ฑฐ์ณ ์ธํ’‹ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ๋“ค์–ด๊ฐ€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

 

๊ฐ ์ž„๋ฒ ๋”ฉ๊ฐ’์ด ๋”ํ•ด์ง€๋Š” ์ด์œ ๋Š” BERT๋Š” ๊ธฐ๋ณธ์ ์œผ๋กœ transformer encoder์˜ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๋ชจ๋“  ๋‹จ์–ด๋ฅผ ๋ณ‘๋ ฌ๋กœ ์ฒ˜๋ฆฌํ•˜๋ฏ€๋กœ ๋‹จ์–ด๊ฐ€ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ์œ„์น˜ ์ •๋ณด๋ฅผ ์ตœ๋Œ€ํ•œ ๋ฐ˜์˜ํ•ด์ค„ ์ˆ˜ ์žˆ๋Š” positional embedding๊ฐ’์„ ๋”ํ•ด์ฃผ๊ณ , ๋˜ํ•œ ๋ฌธ์žฅ ๋ ˆ๋ฒจ์˜ ํ…Œ์Šคํฌ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๊ฒฝ์šฐ, ๊ฐ ํ† ํฐ์ด ์–ด๋Š ๋ฌธ์žฅ์— ํฌํ•จ๋˜์–ด ์žˆ๋Š”์ง€์— ๋Œ€ํ•œ ์ •๋ณด ๋˜ํ•œ ํ•„์š”ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, [SEP] ํ† ํฐ๊ณผ ๋”๋ถˆ์–ด ๋ฌธ์žฅ ์ •๋ณด๋ฅผ ๋ฐ˜์˜ํ•ด์ฃผ๋Š” segmentation embedding ๊ฐ’๋„ ํ•จ๊ป˜ ๋”ํ•ด์ฃผ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

 

 

 

BERT์˜ pre-training ๋ฐฉ๋ฒ•์€  MLM( Masked Language Modeling) ๊ณผ NSP(Next Sentence Prediction) ์ž…๋‹ˆ๋‹ค.

 

๋น„์œ ํ•˜์ž๋ฉด, MLM์€ ํ”ํžˆ ๋นˆ์นธ๋งž์ถ”๊ธฐ ๋ฌธ์ œ๋ผ๊ณ  ์ƒ๊ฐํ•˜์‹œ๋ฉด ๋˜๊ณ , NSP๋Š” ๋‘ ๋ฌธ์žฅ์ด ์ฃผ์–ด์กŒ์„ ๋•Œ, ๊ทธ ๋‘ ๋ฌธ์žฅ์ด ์„œ๋กœ ์ด์–ด์ง€๋Š” ๋ฌธ์žฅ์ธ์ง€ ์•„๋‹Œ์ง€๋ฅผ ๋งž์ถฐ์•ผ ํ•˜๋Š” ๋ฌธ์ œ๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

 

# MLM( ๋งˆ์Šคํฌ๋“œ ์–ธ์–ด ๋ชจ๋ธ๋ง)

 

๊ธฐ๋ณธ์ ์œผ๋กœ ๋ฌธ๋งฅ ๋ชจ๋ธ๋“ค์€ ๋ฌธ์žฅ์˜ ๋‹ค๋ฅธ ๋‹จ์–ด๋“ค์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ ๋‹จ์–ด์˜ ํ‘œํ˜„์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ELMo์™€ ๊ฐ™์ด ๊ฐ ๋‹จ์–ด๋ฅผ ๋‹จ์ˆœํžˆ ์ด์ „ ๋‹จ์–ด์™€ ๋‹ค์Œ ๋‹จ์–ด์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ํ›ˆ๋ จ์‹œํ‚ค๋Š” ๊ฒƒ์€ ๊นŠ์€ ์–‘๋ฐฉํ–ฅ ๋ชจ๋ธ๋กœ ํ˜•์„ฑํ•˜๋Š” ๊ฒƒ์ด ๋ถˆ๊ฐ€๋Šฅํ–ˆ์Šต๋‹ˆ๋‹ค. ์™œ๋ƒํ•˜๋ฉด ์ด๋Š” ์˜ˆ์ธก๋˜๋Š” ๋‹จ์–ด๊ฐ€ ๋‹ค์ธต ๋ชจ๋ธ์—์„œ ๊ฐ„์ ‘์ ์œผ๋กœ ์ž์‹ ์„ ๋ณผ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— cheating์ด ๊ฐ€๋Šฅํ•ด์„œ ๊นŠ์€ ์–‘๋ฐฉํ–ฅ ๋ชจ๋ธ๋กœ ๋งŒ๋“ค์–ด ๋‚ด๋Š” ๊ฒƒ์€ ๋ถˆ๊ฐ€๋Šฅํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. 

 

์ด๋Ÿฌํ•œ ๋ฌธ์ œ์ ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ์ž…๋ ฅ์˜ ์ผ๋ถ€ ๋‹จ์–ด๋ฅผ ๋žœ๋ค์œผ๋กœ ๋งˆ์Šคํ‚น์„ ํ•˜๋Š” ๊ฒƒ์ด MLM ์ž…๋‹ˆ๋‹ค.

 

์ž…๋ ฅ์˜ ์ผ๋ถ€ ๋‹จ์–ด๋ฅผ, ์ •ํ™•ํ•˜๊ฒŒ ๋งํ•˜์ž๋ฉด ์ „์ฒด ๋‹จ์–ด์˜ 15%๋ฅผ ๋žœ๋ค์œผ๋กœ ๋งˆ์Šคํ‚นํ•œ ๋‹ค์Œ์— ๊ฐ ๋‹จ์–ด๋ฅผ ์–‘๋ฐฉํ–ฅ์œผ๋กœ ํ›ˆ๋ จํ•˜์—ฌ

BERT๊ฐ€ ๊ทธ ๋งˆ์Šคํ‚น๋œ ๋‹จ์–ด๋งŒ์„ ์˜ˆ์ธกํ•ด์„œ ๋งž์ถ”๋„๋ก ํ•˜๋Š” ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.(์ „์ฒด์˜ˆ์ธกX)

 

MLM์œผ๋กœ BERT๋Š” cheating ์—†์ด ๋” ์ •ํ™•ํ•˜๊ฒŒ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ํ›ˆ๋ จ์œผ๋กœ ๊นŠ์€ ์–‘๋ฐฉํ–ฅ์„ฑ์„ ์ง€๋‹Œ ์‚ฌ์ „ ํ›ˆ๋ จ ๋ชจ๋ธ์ด ๋  ์ˆ˜ ์žˆ์—ˆ์„ ๊ฒƒ ๊ฐ™์•˜์ง€๋งŒ, ํ•œ ๊ฐ€์ง€ ๋ฌธ์ œ์ ์ด ๋” ๋ฐœ์ƒํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์ด๋ ‡๊ฒŒ ์‚ฌ์ „ ํ›ˆ๋ จ ๋‹จ๊ณ„์—์„œ๋Š” ์ž˜ ๋‚˜ํƒ€๋‚˜๋Š” [MASK] ํ† ํฐ์ด ์ดํ›„์— ์„ค๋ช…๋“œ๋ฆด fine-tuining ๋‹จ๊ณ„์—์„œ๋Š” ๋‚˜ํƒ€๋‚˜์ง€ ์•Š๋Š” ๋ฌธ์ œ์ ์ด์—ˆ๋Š”๋ฐ,

์ด๋Š” ์‚ฌ์ „ ํ›ˆ๋ จ ๋‹จ๊ณ„์™€ ํŒŒ์ธ ํŠœ๋‹ ๋‹จ๊ณ„์—์„œ์˜ ๋ถˆ์ผ์น˜๋ฅผ ์œ ๋ฐœํ•˜์—ฌ ํ•™์Šต์— ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

 

 

์ด๋ฅผ ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•ด์„œ ๊ตฌ๊ธ€ ์—ฐ๊ตฌ์ง„๋“ค์ด ๊ณ ์•ˆํ•ด๋ƒˆ๋˜ ๋ฐฉ๋ฒ•์€

ํ•™์Šต ๋ฐ์ดํ„ฐ ์ƒ์„ฑ๊ธฐ(training data generator)๊ฐ€ ์ „์ฒด ์ธํ’‹ ํ† ํฐ ์ค‘ ๋žœ๋ค์œผ๋กœ ๋ฝ‘์€ 15%์˜ ํ† ํฐ๋“ค์„ ์ „๋ถ€ ๋‹ค ๋งˆ์Šคํ‚น์„ ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ

๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ผ์ • ๋น„์œจ๋กœ ๊ทœ์น™์„ ์ ์šฉํ•˜์—ฌ BERT๋ฅผ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ ์ด์—ˆ์Šต๋‹ˆ๋‹ค

 

์˜ค๋ฅธ์ชฝ ๋…ผ๋ฌธ ๋ถ€๋ก์—์„œ ์ œ์‹œํ•œ ์˜ˆ์‹œ์™€ ์™ผ์ชฝ์— ์ถ”๊ฐ€ ๊ทธ๋ฆผ์„ ํ•จ๊ป˜ ๋ณด๋ฉด, ์ธํ’‹์œผ๋กœ ๋“ค์–ด์˜จ ์ „์ฒด ํ† ํฐ ์ค‘์—์„œ 85%๋Š” ๊ทธ๋Œ€๋กœ ๋‘๊ณ ,

์ด ๋žœ๋ค์œผ๋กœ ๋ฝ‘ํžŒ 15%์˜ ํ† ํฐ ์ค‘์—์„œ์˜ 80%, ์ „์ฒด ์ธํ’‹ ํ† ํฐ์˜ 12%์— ํ•ด๋‹นํ•˜๋Š” ํ† ํฐ์„ [MASK] ํ† ํฐ์œผ๋กœ ๋ณ€๊ฒฝํ•˜์—ฌ, ์‹ค์ œ๋กœ ๋งˆ์Šคํ‚น์„ ํ•ด์ค๋‹ˆ๋‹ค.

 

์˜†์˜ ์˜ˆ์‹œ์—์„œ “my dog is hairy”๋ผ๋Š” ๋ฌธ์žฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด 4๊ฐœ์˜ ํ† ํฐ ์ค‘์—์„œ, hairy๋ผ๋Š” ํ† ํฐ์ด BERT๊ฐ€ ์˜ˆ์ธกํ•ด์„œ ๋งž์ถ”์–ด์•ผ ํ•˜๋Š” ํ† ํฐ์œผ๋กœ ๋ฝ‘ํ˜”๋‹ค๊ณ  ๊ฐ€์ •์„ ํ•ด๋ณธ๋‹ค๋ฉด, hairy์™€ ๊ฐ™์ด ๋žœ๋คํ•˜๊ฒŒ ๋ฝ‘ํžŒ ํ† ํฐ๋“ค ์ค‘ 80%๋Š” ์‹ค์ œ๋กœ [MASK] ํ† ํฐ์œผ๋กœ ๋งˆ์Šคํ‚น์„ ํ•ด์ฃผ๋Š” ๋ฐ˜๋ฉด, 15% ์ค‘์˜ 10%, ์ฆ‰ 1.5%๋Š” ๋งˆ์Šคํ‚น์ด ์•„๋‹Œ, ์˜†์— “apple”๊ณผ ๊ฐ™์ด ์ „ํ˜€ ๊ด€๋ จ์ด ์—†๋Š” ์ž„์˜์˜ ๋‹ค๋ฅธ ๋‹จ์–ด๋กœ ๋ณ€๊ฒฝ์„ ํ•ด์ฃผ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋ ‡๊ฒŒ ํ•ด์„œ ๋‚จ์€ ๋‚˜๋จธ์ง€ 1.5%๋Š” ๋˜๋ ค ๋งˆ์Šคํ‚นํ•˜๋ผ๋Š” ๋ช…๋ น์„ ์–ด๊ธฐ๊ณ , ๊ทธ์ € ์›๋ž˜์˜ ๋‹จ์–ด “hairy”๋ฅผ ๊ทธ๋Œ€๋กœ ๋‘๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

 

์ด ๋งˆ์ง€๋ง‰ ๋ณ€๊ฒฝ๋˜์ง€ ์•Š์€ ๋‹จ์–ด์— ๋Œ€ํ•ด์„œ๋„ BERT๋Š” ํ•ด๋‹น ๋‹จ์–ด๊ฐ€ ๋ณ€๊ฒฝ๋œ ๋‹จ์–ด์ธ์ง€ ์•„๋‹Œ์ง€๋ฅผ ๋ชจ๋ฅด๊ธฐ ๋•Œ๋ฌธ์—, ๋™์ผํ•˜๊ฒŒ ์˜ˆ์ธก์„ ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

 

 

์ด๋ ‡๊ฒŒ ๋žœ๋ค์œผ๋กœ ๋ฝ‘ํžŒ ํ† ํฐ๋“ค์ด ํ•ด๋‹น ๋น„์œจ๋กœ ๊ทœ์น™์„ ์ ์šฉํ•˜์—ฌ ํ•™์Šต์‹œํ‚ฌ ๋•Œ, ์ผ๋ฐ˜์ ์œผ๋กœ ๊ฐ€์žฅ ์ข‹์€ ์„ฑ๋Šฅ์ด ๋‚˜์™”์œผ๋ฉฐ, pre-training๋‹จ๊ณ„์™€ fine-tuning๋‹จ๊ณ„์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๋ถˆ์ผ์น˜(mismatch)๋ฅผ ํ•ด์†Œํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค๊ณ  ๋…ผ๋ฌธ์€ ๋งํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฐ MLM task๋กœ ํ›ˆ๋ จํ•˜๋Š” ๊ฒƒ์˜ ์žฅ์ ์€,

**๋ถ„์‚ฐ ๋ฌธ๋งฅ ํ‘œํ˜„(distributional contextual representation)**

BERT๊ฐ€ ์–ด๋–ค ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋„๋ก ์งˆ๋ฌธ์ด ๋“ค์–ด์˜ฌ์ง€, ํ•ด๋‹น ๋‹จ์–ด๊ฐ€ ๋žœ๋ค์œผ๋กœ ๋ณ€๊ฒฝ๋œ ๋‹จ์–ด์ธ์ง€, ์›๋ž˜ ๋‹จ์–ด์ธ์ง€ ์ „ํ˜€ ๋ชจ๋ฅด๊ธฐ ๋•Œ๋ฌธ์—,

ํ•ด๋‹น ํ…Œ์Šคํฌ๋ฅผ ์ด์šฉํ•œ ํ›ˆ๋ จ๊ณผ์ •์€ BERT๋กœ ํ•˜์—ฌ๊ธˆ๋‹จ์–ด๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก,

์ฆ‰ ๊ฐ ์ธํ’‹ ํ† ํฐ๋“ค์ด ๋ชจ๋“  ํ† ํฐ๋“ค์— ๋Œ€ํ•œ ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋„๋ก ํ•˜์—ฌ ๋ฌธ๋งฅ์„ ๋ฐ˜์˜ํ•œ ์ž„๋ฒ ๋”ฉ์ด ๊ฐ€๋Šฅํ•˜๋„๋ก ํ•ด์ค๋‹ˆ๋‹ค.

 

 

Pre-training์˜ ๋‘๋ฒˆ์งธ ๋ฐฉ๋ฒ•์ธ NSP(Next Sentence Prediction)์€ 

 

MLM์ด BERT๋กœ ํ•˜์—ฌ๊ธˆ๋‹จ์–ด๊ฐ„ ๊ด€๊ณ„๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•™์Šต์‹œ์ผฐ๋‹ค๋ฉด, NSP๋Š” BERT๋กœ ํ•˜์—ฌ๊ธˆ ๋” ๊ธด๋ฌธ์žฅ๊ฐ„์˜ ์˜์กด์„ฑ์„ ์ดํ•ดํ•˜๋„๋ก ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค๋ฉด, ์ˆ˜๋งŽ์€ ์ž์—ฐ์–ด์ฒ˜๋ฆฌ ํ…Œ์Šคํฌ๋“ค ์ค‘์—์„œ๋„ ์งˆ์˜์‘๋‹ต(QA)์ด๋‚˜ ์ž์—ฐ์–ด ์ถ”๋ก (NLI)๊ณผ ๊ฐ™์ด

๋‘ ๋ฌธ์žฅ ๊ฐ„์˜ ๊ด€๊ณ„์— ๋Œ€ํ•œ ์ดํ•ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํ•ด๊ฒฐํ•ด์•ผ ํ•˜๋Š” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ํ…Œ์Šคํฌ๋“ค(sentence-level tasks)์€ MLM๊ณผ ๊ฐ™์€ ์–ธ์–ด ๋ชจ๋ธ๋ง๋งŒ์œผ๋กœ๋Š” ๋ถ€์กฑํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ, BERT๋กœ ํ•˜์—ฌ๊ธˆ ๋” ๊ธด ๋ฌธ์žฅ ๊ฐ„ ๊ด€๊ณ„๋ฅผ ์ดํ•ด์‹œํ‚ค๋„๋ก ํ›ˆ๋ จํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋ฌธ์žฅ A์™€ B๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ๋‘ ๋ฌธ์žฅ์ด ์ด์–ด์ง€๋Š” ๋ฌธ์žฅ์ด๋‹ค ํ˜น์€ ์•„๋‹ˆ๋‹ค๋กœ ๋ถ„๋ฅ˜ํ•˜๋Š” ๊ฐ„๋‹จํ•œ NSP ํ…Œ์Šคํฌ๋ฅผ ํ†ตํ•ด์„œ ์‚ฌ์ „ ํ›ˆ๋ จ์„ ์‹œํ‚ค๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. (binarized next sentences prediction)

 

 

์ž์„ธํ•œ ๊ณผ์ •์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. 

 

NSP๋ฅผ ์œ„ํ•œ ์‚ฌ์ „ํ•™์Šต์šฉ ์ฝ”ํผ์Šค๋ฅผ ์ƒ์„ฑํ•  ๋•Œ, ์œ„ํ‚คํ”ผ๋””์•„๋‚˜ ๋ถ์Šค์ฝ”ํผ์Šค์™€ ๊ฐ™์ด ๋ผ๋ฒจ๋ง๋˜์ง€ ์•Š์€ ๊ฑฐ๋Œ€ํ•œ ์ฝ”ํผ์Šค๋กœ๋ถ€ํ„ฐ ๋ฌธ์žฅ A์™€ B๋ฅผ ๊ณ ๋ฅด๊ฒŒ ๋˜๋Š”๋ฐ,

 

์ด๋•Œ ์˜ค๋ฅธ์ชฝ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด NSP ์‚ฌ์ „ํ•™์Šต์šฉ ์ฝ”ํผ์Šค 50%๋Š” ์‹œํ€€์Šค ๋‚ด ๋ฌธ์žฅ A์™€ B๊ฐ€ ์‹ค์ œ๋กœ ์ด์–ด์ง„ ๋ฌธ์žฅ์œผ๋กœ ๊ตฌ์„ฑํ•˜์—ฌ => ์ฆ‰, IsNext๊ฐ€ ๋ผ๋ฒจ๋ง๋œ ์‹œํ€€์Šค๋กœ ์ฝ”ํผ์Šค๊ฐ€ ๊ตฌ์„ฑ์ด ๋˜๊ฒŒ ๋˜๊ณ  ๋‚˜๋จธ์ง€ 50%๋Š” A์™€ B๊ฐ€ ์‹ค์ œ๋กœ ์ด์–ด์ง„ ๋ฌธ์žฅ์ด ์•„๋‹Œ ๋žœ๋คํ•˜๊ฒŒ ๋ฝ‘ํžŒ ๋ฌธ์žฅ์œผ๋กœ ๊ตฌ์„ฑํ•˜์—ฌ => NotNext๊ฐ€ ๋ผ๋ฒจ๋ง๋œ ์‹œํ€€์Šค๋กœ ์ฝ”ํผ์Šค๋ฅผ ๊ตฌ์„ฑํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

 

๋”ฐ๋ผ์„œ ๊ฒฐ๋ก ์ ์œผ๋กœ ์‚ฌ์ „ ํ•™์Šต๋œ BERT ๋ชจ๋ธ์„ ํŒŒ์ธํŠœ๋‹์„ ํ†ตํ•ด ์–ธ์–ด๋“ค์ด ์ž˜ ์ž„๋ฒ ๋”ฉ๋˜์–ด ๋ชจ๋ธ๋“ค์ด ํ…Œ์Šคํฌ๋ฅผ ๋” ์ˆ˜์›”ํ•˜๊ฒŒ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ทธ ์ž„๋ฒ ๋”ฉ ๊ณผ์ •์—์„œ BERT ์–ธ์–ด๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๊ฒŒ ๋˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋ฐ˜์‘ํ˜•