#์ค์ค๋ก ๊ณต๋ถํ๊ณ ๋ง๋ ๋ด์ฉ์ ๋๋ค.
BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding
https://arxiv.org/abs/1810.04805 (์๋ฌธ)
์ด์ ๊ธ๊ณผ ์ด์ด์ง๋ ๋ด์ฉ์ ๋๋ค.
- Introduction & Related Works
- Pre-training
- Fine-tuning
- Experiment
- Conclusion + koBert
BERT๋ ๋ฌธ๋งฅ์ ๋ฐ์ํ ์๋ฒ ๋ฉ(Conatextual Embedding)์ ๊ฐ๋ฅํ๊ฒ ํด์ฃผ๋ ๋ฒ์ฉ ์ธ์ด ํํ ๋ชจ๋ธ์ ๋๋ค.
BERT๋ ํฌ๊ฒ pre-training(์ฌ์ ํ์ต), fine-tuning(๋ฏธ์ธ ์กฐ์ ) ๋ ๋จ๊ณ๋ก ๋๋ ์ ์์ต๋๋ค.
Pre-training ๋จ๊ณ์์ ์ํคํผ๋์์ ๊ฐ์ด ๋ ์ด๋ธ์ด ์๋ ๋ฐฉ๋ํ ๋ฐ์ดํฐ(๋ง๋ญ์น,corpus)๋ก ์ฌ์ ํ๋ จ์ ์ํจ ๋ชจ๋ธ์ ๊ฐ์ง๊ณ fine-tuning ๋จ๊ณ๋ก ๋์ด๊ฐ, ์ฌ๋ฌ ์์ฐ์ด ์ฒ๋ฆฌ ํ ์คํฌ์์ ์ถ๊ฐ ํ์ต๊ณผ ํจ๊ป ํ์ดํผํ๋ผ๋ฏธํฐ(hyper-parameter)๋ฅผ ์ฌ์กฐ์ ํฉ๋๋ค.
์ ๊ทธ๋ฆผ์์ pre-training์์ input์ผ๋ก ๋ค์ด๊ฐ๋ ๋ผ๋ฒจ๋ง ๋์ง ์์ ๋ฌธ์ฅ A์ B์ ์์ input sequence, ๋ถํ์ ๋ฐ์ค๋ input sequence๋ค์ด ํ ํฐํ๋ ํ ํฐ์ ์๋ฏธํฉ๋๋ค. ๊ทธ ์์ ๋ ธ๋์ ๋ฐ์ค๋ ๊ทธ ํ ํฐ๋ค์ด ์๋ฒ ๋ฉ ๋ ์ด์ด๋ฅผ ๊ฑฐ์น, ์๋ฒ ๋ฉ ๋ฒกํฐ์ด๊ณ , ์ ๊ฒฝ๋ง์ ๊ฑฐ ๊ทธ์๋จ์ ์ด๋ก์ ๋ฐ์ค์ธ ์ต์ข ์๋ ๋ฒกํฐ๊ฐ ๋์ค๊ฒ ๋ฉ๋๋ค.
BERT์ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๋ณด๋ฉด, BERT๋ ํธ๋์คํฌ๋จธ์ ์ธ์ฝ๋ ๋ถ๋ถ๋ง์ ์ฌ๋ฌ ์ธต์ผ๋ก ์์๋ค๋ ๊ฒ์ ์ ์ ์์ต๋๋ค.
๋ ผ๋ฌธ์ 2๊ฐ์ง ํ์ค ๊ตฌ์กฐ ๋ชจ๋ธ, BERT_base์ BERT_large๋ฅผ ๋ณด์ฌ์ค๋๋ค. ๋ ๋ชจ๋ธ์ ๊ตฌ์กฐ์ ์ธ ์ฐจ์ด๋ฅผ ๋ณด๋ฉด,
BERT_base๋ ํธ๋์คํฌ๋จธ ์ธ์ฝ๋๋ฅผ 12๊ฐ์ ์ธต์ผ๋ก ์์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์๊ณ , BERT_large๋ 24๊ฐ์ ์ธต์ผ๋ก ์์์ฌ๋ฆฐ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. BERT_base์ ๊ตฌ์กฐ๋ ๊ธฐ์กด์ ์กด์ฌํ๋ OpenAI GPT์์ ์ฑ๋ฅ ๋น๊ต๋ฅผ ์ํด ๊ณ ์๋ ๋ชจ๋ธ์ด๊ธฐ์, OpenAI GPT์ ๋์ผํ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ๊ฐ๋๋ก ์ค๊ณ๋์๊ณ , BERT_large๋ BERT์ ์ฑ๋ฅ ๊ตฌ์กฐ๋ฅผ ๊ทน๋ํํ ๋ชจ๋ธ๋ก, BERT๊ฐ ๋ฌ์ฑํ SOTA๋ BERT_large๋ก๋ถํฐ ๋์จ ๊ฒฐ๊ณผ๋ผ๊ณ ๋ณด์๋ฉด ๋ฉ๋๋ค.
# ๋ฌธ์ฅ(sentence) ์ํ์ค(sequence) ์ฌ์ ์
๋ ๋จ์ด๋ ํด๋น ๋ ผ๋ฌธ์์ ์ฐ๋ฆฌ๊ฐ ์ผ๋ฐ์ ์ผ๋ก ์๋ ๊ฒ๊ณผ๋ ์กฐ๊ธ ๋ค๋ฅด๊ฒ ์ ์ํ๊ณ ์๊ธฐ ๋๋ฌธ์ ๊ฐ ๋จ์ด์ ์ ์๋ฅผ ์ง์ด๋ณด์๋ฉด, ์ผ๋ฐ์ ์ผ๋ก ์ ํฌ๊ฐ ์๊ณ ์๋ ๋ฌธ์ฅ(sentence)์ ์ฃผ์ด์ ์์ ์ด๋ฅผ ๊ฐ์ถ๊ณ ์๋ ์ธ์ดํ์ ์๋ฏธ์์์ ๋ฌธ์ฅ์ด์ง๋ง, ํด๋น ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ฌธ์ฅ(sentence)๋ ์ฐ์์ ์ธ ๋จ์ด๋ค ํน์ ํ ์คํธ๋ค์ ๋์ด์ ์๋ฏธํฉ๋๋ค. (์ฐ์๋ ํ ์คํธ๋ค์ ์์์ ๋ฒ์)
๋ฐ๋ผ์, ์ฌ๊ธฐ์ ์ด์ผ๊ธฐํ๋ ๋ฌธ์ฅ์ ๊ตฌ๊ฐ ๋ ์๋ ์๊ณ , ๋ฌธ์ฅ์ด๋ ๋ฌธ๋จ์ด ๋ ์ ์์ต๋๋ค.
์ํ์ค(sequence)๋ BERT์ ์ธํ ํ ํฐ ์ํ์ค๋ก, ์์ ์ ์ํ ๋ฌธ์ฅ์ ๊ธฐ๋ฐ์ผ๋ก, ๋จ์ผ ๋ฌธ์ฅ ํน์ ๋ฌธ์ฅ ์์ ์๋ฏธํฉ๋๋ค.
๋ค์ BERT์ input ๊ณผ์ ์ผ๋ก ๋์์์, BERT๋ ๋ผ๋ฒจ๋ง๋์ง ์์ ๋จ์ผ ๋ฌธ์ฅ์ด๋ ๋ฌธ์ฅ ์์“ํ๋์ ํ ํฐ ์ํ์ค”๋ก input์ ๋ฐ๊ฒ ๋๋๋ฐ,
ํ ํฐํ์ ๊ณผ์ ์์ BERT๋ WordPiece ํ ํฌ๋์ด์ ๋ฅผ ์ฌ์ฉํ๊ฒ ๋ฉ๋๋ค.
# Workpiece Tokenizer
WordPiece ํ ํฌ๋์ด์ ๋ ๊ธฐ์กด์ ๋จ์ด ๋จ์๋ก ํ ํฐํ ํ๋ ๊ฒ๋ณด๋ค ํ ์ธต ๋ ๋์๊ฐ์,
์ดํ ์ฌ์ ์ ์๋ ๋จ์ด๋ค์ ๋ํด “## ing”์ ๊ฐ์ด์ธ์ด์ ์๋ฏธ๋ฅผ ์ ์งํ๋ ํ๋ ๋ด์์ “ํ์ ๋จ์ด” ๋จ์๋ก ๋ถํ ํด ํ ์คํธ๋ฅผ ํ ํฐํ ํ๋ ๊ฒ๋๋ค. ์ด๋ ๊ฒ ํ ํฐํ๋ฅผ ์งํํ๊ฒ ๋๋ฉด ๋ชจ๋ธ์ด ์ธํ์ผ๋ก ๋ค์ด์จ ํน์ ๋จ์ด์ ๋ํด ์์ง ๋ชปํ๋ ๊ฒฝ์ฐ์ ๊ธฐ์กด์ฒ๋ผ ๋จ์ํ “unknown”์ผ๋ก ์ฒ๋ฆฌํด๋ฒ๋ฆฌ๋ ๊ฒ์ด ์๋๋ผ, ๊ฐ๋ณ “ํ์ ๋จ์ด” ํ ํฐ์ ํตํด ์ด๋ ์ ๋ ์๋ฏธ๋ฅผ ์ถ๋ก ํ ์ ์๋๋ก ํ๊ณ , ๊ทธ๋ก ์ธํด ์๋ก์ด ๋จ์ด์ ๋ํ ์์ธก๋ ๊ฐ๋ฅํ๊ฒ ๋๋ฉด์์ ํ๋๋ฅผ ์ข ํฅ์ ์์ผ์ฃผ๋ ์ฅ์ ์ด ์์ต๋๋ค.
ํ ํฌ๋์ด์ง ๋ ํ ํฐ๋ค์๋ [CLS]๋ผ๊ณ ํ๋ ํน๋ณ “๋ถ๋ฅ” ํ ํฐ๊ณผ [SEP]๋ผ๊ณ ํ๋ ํน๋ณ “๋ถ๋ฆฌ” ํ ํฐ์ด ๋ถ๊ฒ๋ฉ๋๋ค.
[CLS] ํ ํฐ์ ๋ชจ๋ ์ํ์ค์ ์ฒซ๋ฒ์งธ ํ ํฐ์ผ๋ก ์์นํ์ฌ ์ํ์ค์ ์์๊ณผ ๋์ ์๋ฆฌ๊ณ , ๋ถ๋ฅ ํ ์คํฌ์์ ํ์ฉ๋๊ฒ ๋ฉ๋๋ค.
๋ฐ๋ฉด์ [SEP] ํ ํฐ์ ๋ชจ๋ ๋ฌธ์ฅ์ ๋์ ์ถ๊ฐ๋์ด, ํ ์ํ์ค๋ฅผ ๊ตฌ์ฑํ๊ณ ์๋ ๋ ๋ฌธ์ฅ์์ ๋ถ๋ฆฌํด์ฃผ๋ ์ญํ ์ ํ๊ฒ ๋ฉ๋๋ค.
์ด๋ ๊ฒ ํ ํฐํ๊ฐ ์๋ฃ๋ ๊ฐ ํ ํฐ๋ค์ 3๊ฐ์ง ์๋ฒ ๋ฉ ๋ ์ด์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์๋ฒ ๋ฉ๋์ด BERT์ ์ธํ์ผ๋ก ๋ค์ด๊ฐ๊ฒ ๋๋๋ฐ,
์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด,
์ต์ข ์ธํ ์๋ฒ ๋ฉ(Input Embedding) = ํ ํฐ ์๋ฒ ๋ฉ(Token Embedding)+์ธ๊ทธ๋ฉํ ์ด์ ์๋ฒ ๋ฉ(Segmentation Embedding)+ ํฌ์ง์ ์๋ฒ ๋ฉ(Position Embedding)์ ๊ฑฐ์ณ ์ธํ ์๋ฒ ๋ฉ์ผ๋ก ๋ค์ด๊ฐ๊ฒ ๋ฉ๋๋ค.
๊ฐ ์๋ฒ ๋ฉ๊ฐ์ด ๋ํด์ง๋ ์ด์ ๋ BERT๋ ๊ธฐ๋ณธ์ ์ผ๋ก transformer encoder์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์ ๋ชจ๋ ๋จ์ด๋ฅผ ๋ณ๋ ฌ๋ก ์ฒ๋ฆฌํ๋ฏ๋ก ๋จ์ด๊ฐ ๊ฐ์ง๊ณ ์๋ ์์น ์ ๋ณด๋ฅผ ์ต๋ํ ๋ฐ์ํด์ค ์ ์๋ positional embedding๊ฐ์ ๋ํด์ฃผ๊ณ , ๋ํ ๋ฌธ์ฅ ๋ ๋ฒจ์ ํ ์คํฌ๋ฅผ ํด๊ฒฐํ๋ ๊ฒฝ์ฐ, ๊ฐ ํ ํฐ์ด ์ด๋ ๋ฌธ์ฅ์ ํฌํจ๋์ด ์๋์ง์ ๋ํ ์ ๋ณด ๋ํ ํ์ํ๊ธฐ ๋๋ฌธ์, [SEP] ํ ํฐ๊ณผ ๋๋ถ์ด ๋ฌธ์ฅ ์ ๋ณด๋ฅผ ๋ฐ์ํด์ฃผ๋ segmentation embedding ๊ฐ๋ ํจ๊ป ๋ํด์ฃผ๊ฒ ๋ฉ๋๋ค.
BERT์ pre-training ๋ฐฉ๋ฒ์ MLM( Masked Language Modeling) ๊ณผ NSP(Next Sentence Prediction) ์ ๋๋ค.
๋น์ ํ์๋ฉด, MLM์ ํํ ๋น์นธ๋ง์ถ๊ธฐ ๋ฌธ์ ๋ผ๊ณ ์๊ฐํ์๋ฉด ๋๊ณ , NSP๋ ๋ ๋ฌธ์ฅ์ด ์ฃผ์ด์ก์ ๋, ๊ทธ ๋ ๋ฌธ์ฅ์ด ์๋ก ์ด์ด์ง๋ ๋ฌธ์ฅ์ธ์ง ์๋์ง๋ฅผ ๋ง์ถฐ์ผ ํ๋ ๋ฌธ์ ๋ผ๊ณ ํ ์ ์์ต๋๋ค.
# MLM( ๋ง์คํฌ๋ ์ธ์ด ๋ชจ๋ธ๋ง)
๊ธฐ๋ณธ์ ์ผ๋ก ๋ฌธ๋งฅ ๋ชจ๋ธ๋ค์ ๋ฌธ์ฅ์ ๋ค๋ฅธ ๋จ์ด๋ค์ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ ๋จ์ด์ ํํ์ ์์ฑํฉ๋๋ค. ๊ทธ๋ฌ๋ ELMo์ ๊ฐ์ด ๊ฐ ๋จ์ด๋ฅผ ๋จ์ํ ์ด์ ๋จ์ด์ ๋ค์ ๋จ์ด์ ๊ธฐ๋ฐํ์ฌ ํ๋ จ์ํค๋ ๊ฒ์ ๊น์ ์๋ฐฉํฅ ๋ชจ๋ธ๋ก ํ์ฑํ๋ ๊ฒ์ด ๋ถ๊ฐ๋ฅํ์ต๋๋ค. ์๋ํ๋ฉด ์ด๋ ์์ธก๋๋ ๋จ์ด๊ฐ ๋ค์ธต ๋ชจ๋ธ์์ ๊ฐ์ ์ ์ผ๋ก ์์ ์ ๋ณผ ์ ์๊ธฐ ๋๋ฌธ์ cheating์ด ๊ฐ๋ฅํด์ ๊น์ ์๋ฐฉํฅ ๋ชจ๋ธ๋ก ๋ง๋ค์ด ๋ด๋ ๊ฒ์ ๋ถ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
์ด๋ฌํ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด, ์ ๋ ฅ์ ์ผ๋ถ ๋จ์ด๋ฅผ ๋๋ค์ผ๋ก ๋ง์คํน์ ํ๋ ๊ฒ์ด MLM ์ ๋๋ค.
์ ๋ ฅ์ ์ผ๋ถ ๋จ์ด๋ฅผ, ์ ํํ๊ฒ ๋งํ์๋ฉด ์ ์ฒด ๋จ์ด์ 15%๋ฅผ ๋๋ค์ผ๋ก ๋ง์คํนํ ๋ค์์ ๊ฐ ๋จ์ด๋ฅผ ์๋ฐฉํฅ์ผ๋ก ํ๋ จํ์ฌ
BERT๊ฐ ๊ทธ ๋ง์คํน๋ ๋จ์ด๋ง์ ์์ธกํด์ ๋ง์ถ๋๋ก ํ๋ ๊ธฐ์ ์ ์ฌ์ฉํ๊ฒ ๋ฉ๋๋ค.(์ ์ฒด์์ธกX)
MLM์ผ๋ก BERT๋ cheating ์์ด ๋ ์ ํํ๊ฒ ๋จ์ด๋ฅผ ์์ธกํ๋ ํ๋ จ์ผ๋ก ๊น์ ์๋ฐฉํฅ์ฑ์ ์ง๋ ์ฌ์ ํ๋ จ ๋ชจ๋ธ์ด ๋ ์ ์์์ ๊ฒ ๊ฐ์์ง๋ง, ํ ๊ฐ์ง ๋ฌธ์ ์ ์ด ๋ ๋ฐ์ํ๊ฒ ๋ฉ๋๋ค.
์ด๋ ๊ฒ ์ฌ์ ํ๋ จ ๋จ๊ณ์์๋ ์ ๋ํ๋๋ [MASK] ํ ํฐ์ด ์ดํ์ ์ค๋ช ๋๋ฆด fine-tuining ๋จ๊ณ์์๋ ๋ํ๋์ง ์๋ ๋ฌธ์ ์ ์ด์๋๋ฐ,
์ด๋ ์ฌ์ ํ๋ จ ๋จ๊ณ์ ํ์ธ ํ๋ ๋จ๊ณ์์์ ๋ถ์ผ์น๋ฅผ ์ ๋ฐํ์ฌ ํ์ต์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ฒ ๋ฉ๋๋ค.
์ด๋ฅผ ์ํํ๊ธฐ ์ํด์ ๊ตฌ๊ธ ์ฐ๊ตฌ์ง๋ค์ด ๊ณ ์ํด๋๋ ๋ฐฉ๋ฒ์
ํ์ต ๋ฐ์ดํฐ ์์ฑ๊ธฐ(training data generator)๊ฐ ์ ์ฒด ์ธํ ํ ํฐ ์ค ๋๋ค์ผ๋ก ๋ฝ์ 15%์ ํ ํฐ๋ค์ ์ ๋ถ ๋ค ๋ง์คํน์ ํ๋ ๊ฒ์ด ์๋๋ผ
๋ค์๊ณผ ๊ฐ์ ์ผ์ ๋น์จ๋ก ๊ท์น์ ์ ์ฉํ์ฌ BERT๋ฅผ ํ์ต์ํค๋ ๊ฒ ์ด์์ต๋๋ค
์ค๋ฅธ์ชฝ ๋ ผ๋ฌธ ๋ถ๋ก์์ ์ ์ํ ์์์ ์ผ์ชฝ์ ์ถ๊ฐ ๊ทธ๋ฆผ์ ํจ๊ป ๋ณด๋ฉด, ์ธํ์ผ๋ก ๋ค์ด์จ ์ ์ฒด ํ ํฐ ์ค์์ 85%๋ ๊ทธ๋๋ก ๋๊ณ ,
์ด ๋๋ค์ผ๋ก ๋ฝํ 15%์ ํ ํฐ ์ค์์์ 80%, ์ ์ฒด ์ธํ ํ ํฐ์ 12%์ ํด๋นํ๋ ํ ํฐ์ [MASK] ํ ํฐ์ผ๋ก ๋ณ๊ฒฝํ์ฌ, ์ค์ ๋ก ๋ง์คํน์ ํด์ค๋๋ค.
์์ ์์์์ “my dog is hairy”๋ผ๋ ๋ฌธ์ฅ์ด ์์ต๋๋ค. ์ด 4๊ฐ์ ํ ํฐ ์ค์์, hairy๋ผ๋ ํ ํฐ์ด BERT๊ฐ ์์ธกํด์ ๋ง์ถ์ด์ผ ํ๋ ํ ํฐ์ผ๋ก ๋ฝํ๋ค๊ณ ๊ฐ์ ์ ํด๋ณธ๋ค๋ฉด, hairy์ ๊ฐ์ด ๋๋คํ๊ฒ ๋ฝํ ํ ํฐ๋ค ์ค 80%๋ ์ค์ ๋ก [MASK] ํ ํฐ์ผ๋ก ๋ง์คํน์ ํด์ฃผ๋ ๋ฐ๋ฉด, 15% ์ค์ 10%, ์ฆ 1.5%๋ ๋ง์คํน์ด ์๋, ์์ “apple”๊ณผ ๊ฐ์ด ์ ํ ๊ด๋ จ์ด ์๋ ์์์ ๋ค๋ฅธ ๋จ์ด๋ก ๋ณ๊ฒฝ์ ํด์ฃผ๊ฒ ๋ฉ๋๋ค. ๊ทธ๋ ๊ฒ ํด์ ๋จ์ ๋๋จธ์ง 1.5%๋ ๋๋ ค ๋ง์คํนํ๋ผ๋ ๋ช ๋ น์ ์ด๊ธฐ๊ณ , ๊ทธ์ ์๋์ ๋จ์ด “hairy”๋ฅผ ๊ทธ๋๋ก ๋๊ฒ ๋ฉ๋๋ค.
์ด ๋ง์ง๋ง ๋ณ๊ฒฝ๋์ง ์์ ๋จ์ด์ ๋ํด์๋ BERT๋ ํด๋น ๋จ์ด๊ฐ ๋ณ๊ฒฝ๋ ๋จ์ด์ธ์ง ์๋์ง๋ฅผ ๋ชจ๋ฅด๊ธฐ ๋๋ฌธ์, ๋์ผํ๊ฒ ์์ธก์ ํด์ผ ํฉ๋๋ค.
์ด๋ ๊ฒ ๋๋ค์ผ๋ก ๋ฝํ ํ ํฐ๋ค์ด ํด๋น ๋น์จ๋ก ๊ท์น์ ์ ์ฉํ์ฌ ํ์ต์ํฌ ๋, ์ผ๋ฐ์ ์ผ๋ก ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ด ๋์์ผ๋ฉฐ, pre-training๋จ๊ณ์ fine-tuning๋จ๊ณ์์ ๋ฐ์ํ๋ ๋ถ์ผ์น(mismatch)๋ฅผ ํด์ํ ์ ์์๋ค๊ณ ๋ ผ๋ฌธ์ ๋งํ๊ณ ์์ต๋๋ค.
์ด๋ฐ MLM task๋ก ํ๋ จํ๋ ๊ฒ์ ์ฅ์ ์,
**๋ถ์ฐ ๋ฌธ๋งฅ ํํ(distributional contextual representation)**
BERT๊ฐ ์ด๋ค ๋จ์ด๋ฅผ ์์ธกํ๋๋ก ์ง๋ฌธ์ด ๋ค์ด์ฌ์ง, ํด๋น ๋จ์ด๊ฐ ๋๋ค์ผ๋ก ๋ณ๊ฒฝ๋ ๋จ์ด์ธ์ง, ์๋ ๋จ์ด์ธ์ง ์ ํ ๋ชจ๋ฅด๊ธฐ ๋๋ฌธ์,
ํด๋น ํ ์คํฌ๋ฅผ ์ด์ฉํ ํ๋ จ๊ณผ์ ์ BERT๋ก ํ์ฌ๊ธ “๋จ์ด” ๊ฐ์ ๊ด๊ณ๋ฅผ ์ดํดํ ์ ์๋๋ก,
์ฆ ๊ฐ ์ธํ ํ ํฐ๋ค์ด ๋ชจ๋ ํ ํฐ๋ค์ ๋ํ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ๊ฐ์ง ์ ์๋๋ก ํ์ฌ ๋ฌธ๋งฅ์ ๋ฐ์ํ ์๋ฒ ๋ฉ์ด ๊ฐ๋ฅํ๋๋ก ํด์ค๋๋ค.
Pre-training์ ๋๋ฒ์งธ ๋ฐฉ๋ฒ์ธ NSP(Next Sentence Prediction)์
MLM์ด BERT๋ก ํ์ฌ๊ธ “๋จ์ด” ๊ฐ ๊ด๊ณ๋ฅผ ์ดํดํ ์ ์๋๋ก ํ์ต์์ผฐ๋ค๋ฉด, NSP๋ BERT๋ก ํ์ฌ๊ธ ๋ ๊ธด “๋ฌธ์ฅ” ๊ฐ์ ์์กด์ฑ์ ์ดํดํ๋๋ก ํ์ต์ํต๋๋ค.
์๋ฅผ ๋ค๋ฉด, ์๋ง์ ์์ฐ์ด์ฒ๋ฆฌ ํ ์คํฌ๋ค ์ค์์๋ ์ง์์๋ต(QA)์ด๋ ์์ฐ์ด ์ถ๋ก (NLI)๊ณผ ๊ฐ์ด
๋ ๋ฌธ์ฅ ๊ฐ์ ๊ด๊ณ์ ๋ํ ์ดํด๋ฅผ ๋ฐํ์ผ๋ก ํด๊ฒฐํด์ผ ํ๋ ์์ฐ์ด ์ฒ๋ฆฌ ํ ์คํฌ๋ค(sentence-level tasks)์ MLM๊ณผ ๊ฐ์ ์ธ์ด ๋ชจ๋ธ๋ง๋ง์ผ๋ก๋ ๋ถ์กฑํฉ๋๋ค. ๊ทธ๋์, BERT๋ก ํ์ฌ๊ธ ๋ ๊ธด ๋ฌธ์ฅ ๊ฐ ๊ด๊ณ๋ฅผ ์ดํด์ํค๋๋ก ํ๋ จํ๊ธฐ ์ํด์๋ ๋ฌธ์ฅ A์ B๊ฐ ์ฃผ์ด์ก์ ๋, ๋ ๋ฌธ์ฅ์ด ์ด์ด์ง๋ ๋ฌธ์ฅ์ด๋ค ํน์ ์๋๋ค๋ก ๋ถ๋ฅํ๋ ๊ฐ๋จํ NSP ํ ์คํฌ๋ฅผ ํตํด์ ์ฌ์ ํ๋ จ์ ์ํค๊ฒ ๋ฉ๋๋ค. (binarized next sentences prediction)
์์ธํ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
NSP๋ฅผ ์ํ ์ฌ์ ํ์ต์ฉ ์ฝํผ์ค๋ฅผ ์์ฑํ ๋, ์ํคํผ๋์๋ ๋ถ์ค์ฝํผ์ค์ ๊ฐ์ด ๋ผ๋ฒจ๋ง๋์ง ์์ ๊ฑฐ๋ํ ์ฝํผ์ค๋ก๋ถํฐ ๋ฌธ์ฅ A์ B๋ฅผ ๊ณ ๋ฅด๊ฒ ๋๋๋ฐ,
์ด๋ ์ค๋ฅธ์ชฝ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด NSP ์ฌ์ ํ์ต์ฉ ์ฝํผ์ค 50%๋ ์ํ์ค ๋ด ๋ฌธ์ฅ A์ B๊ฐ ์ค์ ๋ก ์ด์ด์ง ๋ฌธ์ฅ์ผ๋ก ๊ตฌ์ฑํ์ฌ => ์ฆ, IsNext๊ฐ ๋ผ๋ฒจ๋ง๋ ์ํ์ค๋ก ์ฝํผ์ค๊ฐ ๊ตฌ์ฑ์ด ๋๊ฒ ๋๊ณ ๋๋จธ์ง 50%๋ A์ B๊ฐ ์ค์ ๋ก ์ด์ด์ง ๋ฌธ์ฅ์ด ์๋ ๋๋คํ๊ฒ ๋ฝํ ๋ฌธ์ฅ์ผ๋ก ๊ตฌ์ฑํ์ฌ => NotNext๊ฐ ๋ผ๋ฒจ๋ง๋ ์ํ์ค๋ก ์ฝํผ์ค๋ฅผ ๊ตฌ์ฑํ๊ฒ ๋ฉ๋๋ค.
๋ฐ๋ผ์ ๊ฒฐ๋ก ์ ์ผ๋ก ์ฌ์ ํ์ต๋ BERT ๋ชจ๋ธ์ ํ์ธํ๋์ ํตํด ์ธ์ด๋ค์ด ์ ์๋ฒ ๋ฉ๋์ด ๋ชจ๋ธ๋ค์ด ํ ์คํฌ๋ฅผ ๋ ์์ํ๊ฒ ํด๊ฒฐํ ์ ์๋๋ก ๊ทธ ์๋ฒ ๋ฉ ๊ณผ์ ์์ BERT ์ธ์ด๋ชจ๋ธ์ ์ฌ์ฉํ๊ฒ ๋๋ ๊ฒ์ ๋๋ค.