#์ค์ค๋ก ๊ณต๋ถํ๊ณ ๋ง๋ ๋ด์ฉ์ ๋๋ค.
BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding
https://arxiv.org/abs/1810.04805 (์๋ฌธ)
์ด์ ๊ธ๊ณผ ์ด์ด์ง๋ ๋ด์ฉ์ ๋๋ค.
- Introduction & Related Works
- Pre-training
- Fine-tuning
- Experiment
- Conclusion + koBERT
fine-tuning์ ์ฌ์ ํ์ต๋ ๋ฌธ์ฅ์ ๋ฌธ๋งฅ ์ ๋ณด ๋ฑ์ ๊ณ ๋ คํ weight ๊ฐ์ ๊ฐ์ง๊ณ , ์ฌ์ ํ๋ จ๋ BERT์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ทธ๋๋ก ๊ฐ์ ธ์ ๋ฌธ์๋ถ๋ฅ, ๊ฐ์ฒด๋ช ์ธ์๊ณผ ๊ฐ์ ๊ณผ์ ์ ์ ์ฉ ํ ์ ์๋๋ก ๋ชจ๋ธ์ ์ ๋ฐ์ดํธํ๋ ๊ณผ์ ์ ๋๋ค.
fine-tuning์ pre-train๊ณผ ๋ฌ๋ฆฌ, ์ง๋ ํ์ต์ผ๋ก ํ์ต์ด ์ด๋ฃจ์ด์ง๊ฒ ๋๋ค๋ ์ฐจ์ด์ ์ด ์์ต๋๋ค.
์ด ๋ ผ๋ฌธ์์๋ 4๊ฐ์ง task๋ก fine tuning ํ๋ ๊ณผ์ ์ ๋ณด์ฌ์ค๋๋ค.
์์ ๋๊ฐ๋ ๋ฌธ์ฅ ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ ํ๋ ๋ฌธ์ฅ์๋ฒ ๋ฉ, ์๋์ ๋๊ฐ๋ ํ ํฐ ๋จ์๋ก ํ์ ํ๋ ํ ํฐ์๋ฒ ๋ฉ์ ๋๋ค.
- ์์ฐ์ด ์ถ๋ก ํ์คํฌ
- ํ ์คํธ ๋ถ๋ฅ ํ์คํฌ
- ์ง๋ฌธ-์๋ต ํ์คํฌ
- ๊ฐ์ฒด๋ช ์ธ์ ํ์คํฌ
์์ฐ์ด ์ถ๋ก ํ์คํฌ๋, ๋ฌธ์ฅ ๋ ๊ฐ๊ฐ ์ฃผ์ด์ก์ ๋ ํด๋น ๋ฌธ์ฅ ์ฌ์ด์ ๊ด๊ณ๊ฐ ์ด๋ค ๋ฒ์ฃผ์ ์ํ๋์ง ๋ถ๋ฅํ๋ ๊ณผ์ ์ ๋๋ค.
์๋ฅผ ๋ค์ด '๋ ์ถ๊ทผํ์ด' ์ '๋ ๋ฐฑ์์ผ' ๋ผ๋ ๋ ๋ฌธ์ฅ์ ๋ฃ์์ ๋ ์ด๊ฒ์ ์ฐธ, ๊ฑฐ์ง, ์ค๋ฆฝ ๋ฒ์ฃผ์ ํด๋น๋๋๋ก ๋ถ๋ฅํ๋ ๊ฒ์ ๋๋ค.
๊ทธ๋์ ๋ ๋ฌธ์ฅ์ด ๋ค์ด์์ ๋, ํ ํฐํ ํ ๋ค [CLS] ํ ํฐ๊ณผ [SEP] ํ ํฐ์ ์ถ๊ฐํด BERT๋ชจ๋ธ์ ์ ๋ ฅํ๊ณ BERT ๋ชจ๋ธ ๋ง์ง๋ง ๋ ์ด์ด ์ถ๋ ฅ ์ค ๋ค๋ฅธ ๋ชจ๋ ํ ํฐ ์๋ฒ ๋ฉ์ ๋ฌด์ํ๊ณ [CLS]์ ํด๋นํ๋ ํ ํฐ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ง ๋ฝ์ต๋๋ค.
์ด ๋ฒกํฐ์ ์์ ์ถ๊ฐ ๋ชจ๋์ ๋ง๋ถ์ฌ ๋ชจ๋ธ ์ต์ข ouput์ธ ์ฐธ, ๊ฑฐ์ง, ์ค๋ฆฝ ํํ๊ฐ ๋๋๋ก ํฉ๋๋ค.
์ด ์์ ์ถ๊ฐ ๋ชจ๋ ์์์๋ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๊ธฐ ์ํด dropout์ ์ ์ฉํ๊ณ , ๋ถ๋ฅํด์ผ ํ ๋ฒ์ฃผ๊ฐ ๋์ค๋๋ก ๊ฐ์ค์น ํ๋ ฌ์ ๊ณฑํ ๋ค, softmax ํจ์๋ฅผ ์ทจํ๋ ๊ณผ์ ์ ๊ฑฐ์น๊ฒ ๋ฉ๋๋ค.
์ด๋ ๊ฒ ํด์ ๋ง๋ ๋ชจ๋ธ์ ์ต์ข ์ถ๋ ฅ ๊ฒฐ๊ณผ์ ์ ๋ต ๋ ์ด๋ธ์ ๋น๊ตํด ์ต์ข ์ถ๋ ฅ๊ฐ์ด ์ ๋ต ๋ ์ด๋ธ๊ณผ ์ต๋ํ ๊ฐ์์ง๋๋ก ๋ชจ๋ธ ์ ์ฒด๋ฅผ ์ ๋ฐ์ดํธ ํ๋ฉด์ ํ์ต์ ํฉ๋๋ค.
๋ฌธ์ฅ์ด ์ฃผ์ด์ก์ ๋, ํด๋น ๋ฌธ์ฅ์ด ๊ธ์ ์ธ์ง ๋ถ์ ์ธ์ง ๋ถ๋ฅํ๋ ํ์คํฌ๋ก,
์๋ฅผ ๋ค์ด '์ด ์ํ ์ฌ๋ฏธ ์๋ค์' ์ ๊ฐ์ ๋ฌธ์ฅ์ด ๋ค์ด์์ ๋, ์ด ๋ฌธ์ฅ์ ๋ถ์ ์ผ๋ก ์์ธกํ๋๋ก ํ์ต์ํค๋ ๊ณผ์ ์ ๋๋ค.
์ ๋ ฅ ๋ฌธ์ฅ์ ํ ํฐํ ํ ๋ค 1๋ฒ๊ณผ ๋์ผํ ๋ฐฉ์์ผ๋ก[CLS] ํ ํฐ๊ณผ [SEP] ํ ํฐ์ ์ถ๊ฐํด BERT๋ชจ๋ธ์ ์ ๋ ฅํ๊ณ BERT ๋ชจ๋ธ ๋ง์ง๋ง ๋ ์ด์ด ์ถ๋ ฅ ์ค ๋ค๋ฅธ ๋ชจ๋ ํ ํฐ ์๋ฒ ๋ฉ์ ๋ฌด์ํ๊ณ [CLS]์ ํด๋นํ๋ ํ ํฐ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ง ๋ฝ์ต๋๋ค.
์ด ๋ฒกํฐ์ ์์ ์ถ๊ฐ ๋ชจ๋์ ๋ง๋ถ์ฌ ๋ชจ๋ธ ์ต์ข ouput์ด ๊ธ์ , ๋ถ์ ์ ๊ฐ ๋ฒ์ฃผ์ ํ๋ฅ ๊ฐ์ผ๋ก ๋ํ๋๋๋ก ํ ๊ฒ์ ๋๋ค.
์์ ์ถ๊ฐ ๋ชจ๋ ์์์๋ 1๋ฒ๊ณผ ๋์ผํ ๋ฐฉ๋ฒ์ผ๋ก dropout๊ณผ softmax ํจ์๋ฅผ ์ทจํ๋ ๊ณผ์ ์ ๊ฑฐ์ณ ๋ชจ๋ธ์ ์ต์ข ์ถ๋ ฅ๊ณผ ์ ๋ต ๋ ์ด๋ธ์ ๋น๊ตํด ๋ชจ๋ธ ์ถ๋ ฅ์ด ์ ๋ต ๋ ์ด๋ธ๊ณผ ์ต๋ํ ๊ฐ์์ง๋๋ก ๋ชจ๋ธ ์ ์ฒด๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค.
์ง๋ฌธ๊ณผ ์ง๋ฌธ์ ๋ํ ์๋ต์ด ํฌํจ๋ ๋จ๋ฝ์ด ์ฃผ์ด์ก์ ๋, ์ฃผ์ด์ง ์ง๋ฌธ์ ๋ํ ๋ต์ ๋จ๋ฝ์์ ์ถ์ถํ๋ ํ์คํฌ์ ๋๋ค.
์๋ฅผ ๋ค์ด ํ๊ธ์ด ์ฐฝ์ ๋ ์ฐ๋๋?' ๊ณผ 'ํ๊ธ์ 1443๋ ๋ง๋ค์ด์ก๋ค.'์ ๊ฐ์ ์ง๋ฌธ๊ณผ ๋จ๋ฝ์ ๋ฃ์์ ๋, ์ ๋ต์ธ 1443์ ์ถ๋ ฅํด ์ฃผ๋๋ก ํ์ต ์ํต๋๋ค.
๊ทธ๋ฌ๋ฉด ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ์ง๋ฌธ๊ณผ ๋จ๋ฝ์ ๊ฐ๊ฐ ํ ํฐํ ํ ๋ค [CLS]ํ ํฐ๊ณผ [SEP]ํ ํฐ์ ์ถ๊ฐํด BERT์ ์ ๋ ฅ๊ฐ์ผ๋ก ๋ฃ๊ฒ ๋ฉ๋๋ค. ๋ชจ๋ ์ ๋ ฅ ํ ํฐ์ ๋ํด BERT ๋ชจ๋ธ์ ๋ง์ง๋ง ๋ ์ด์ด๋ก ๊ฐ ํ ํฐ๋ง๋ค ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ๋ฝ์ต๋๋ค.
์์ ๊ณผ์ ์๋ ๋ค๋ฅด๊ฒ [CLS]์ ๋ง์ง๋ง ์ถ๋ ฅ ํ ํฐ๋ง ์ฌ์ฉํ์ง ์๊ณ , ์ง๋ฌธ ๋ถ๋ถ์ ๋ง์ง๋ง ์ถ๋ ฅ ํ ํฐ ๋ฒกํฐ๋ฅผ ์ฌ์ฉํ๊ฒ ๋ฉ๋๋ค.
์ด ํ ํฐ ๋ฒกํฐ์ ๊ฐ๊ฐ ์์ ์ถ๊ฐ ๋ชจ๋์ ๋ง๋ถ์ฌ ๋ชจ๋ธ์ ์ถ๋ ฅ์ด ํด๋น ํ ํฐ์ด ์ ๋ต์ ์์์ด๋ ๋์ผ ํ๋ฅ ์ด ๋๋๋ก ๋ง๋ญ๋๋ค.
์ฆ, ์ง๋ฌธ์ 'ํ๊ธ'๊ณผ '์' ๋ถ๋ถ์ ์ ๋ต์ ์์๋ ๋๋ ์๋๊ธฐ ๋๋ฌธ์ ๊ต์ฅํ ๋ฎ์ ํ๋ฅ ๊ฐ์ด ๋์ค๊ฒ ํ์ต ์ํค๊ณ , '1443' ๋ถ๋ถ์ ์ ๋ต์ ์์ ๋ถ๋ถ์ด๊ธฐ ๋๋ฌธ์ ๋์ ํ๋ฅ ๊ฐ์ด ๋์ค๋๋ก ํ์ต ์ํต๋๋ค.
์์ ์ถ๊ฐ ๋ชจ๋ ๊ณผ์ ์์๋ ์ด๋ค ์ผ์ด ์ผ์ด๋๋๋ฉด, ๋๋กญ์์๊ณผ ์ํํธ๋งฅ์ค ํจ์๋ฅผ ์ทจํ๋ ๊ฒ์ ์ด์ ๊ณผ ๋์ผํฉ๋๋ค. ๋๋กญ์์์ ์ ์ฉํ ๋ค ๊ฐ์ค์น ํ๋ ฌ์ ๊ณฑํด์ 2์ฐจ์ ๋ฒกํฐ๋ก ๋ณํํฉ๋๋ค. ์ฌ๊ธฐ์ 2์ฐจ์ ๋ฒกํฐ๋ก ๋ณํํ๋ ์ด์ ๋ ๊ฐ๊ฐ์ด ์ ๋ต์ ์์์ธ์ง ์๋์ง, ์ ๋ต์ ๋์ธ์ง ์๋์ง์ ์ ๋ณด๋ฅผ ๋ํ๋ด๊ธฐ ๋๋ฌธ์ ๋๋ค.
์ดํ ์ ๋ต์ ์์์ธ์ง ์๋์ง๋ฅผ ํ๋จํ๋ ๊ฐ๋ง ๋ชจ์์ softmax๊ฐ์ ์ทจํด์ค ๋์จ ๊ฐ, ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก ์ ๋ต์ ๋์ธ์ง ์๋์ง๋ฅผ ํ๋จํ๋ ๊ฐ๋ง ๋ชจ์์ softmax๊ฐ์ ์ทจํด์ ๋์จ ๊ฐ์ผ๋ก ๋๋๊ฒ ๋๋๋ฐ ๊ฐ๊ฐ์ ์ต์ข ๊ฒฐ๊ณผ๊ฐ์ด ์ ๋ต์ ์์๊ณผ ๊ด๋ จํ ๊ฐ์, ์ ๋ต์ ๋๊ณผ ๊ด๋ จ๋ ๊ฐ์ ์ถ๋ ฅํฉ๋๋ค.
์์ ๊ฐ์ด ์ต์ข ์ถ๋ ฅ๊ฐ๊ณผ ์ ๋ต ๋ ์ด๋ธ์ ๋น๊ตํด ๋ชจ๋ธ ์ถ๋ ฅ์ด ์ ๋ต ๋ ์ด๋ธ๊ฐ ์ต๋ํ ๊ฐ์์ง๋๋ก ๋ชจ๋ธ ์ ์ฒด๋ฅผ ์ ๋ฐ์ดํธํ๋ฉฐ ํ์ตํฉ๋๋ค.
๊ฐ์ฒด๋ช ์ธ์์ ๋ฌธ์ฅ์ ํ ํฐํํ ๋ค ํ ํฐ ๊ฐ๊ฐ์ ์ธ๋ช , ์ง๋ช , ๊ธฐ๊ด๋ช ๋ฑ ๊ฐ์ฒด๋ช ํ๊ทธ๋ฅผ ๋ถ์ฌ์ฃผ๋ ํ์คํฌ์ ๋๋ค.
์๋ฅผ ๋ค์ด, Input ํ ํฐ์ BERT๋ชจ๋ธ์ ์ ๋ ฅํ ๋ค, ๋ชจ๋ ํ ํฐ์ ๋ํด BERT ๋ชจ๋ธ ๋ง์ง๋ง ๋ ์ด์ด์ ์ถ๋ ฅ์ ๋ฝ์ต๋๋ค.
๊ฐ๊ฐ์ ์ถ๋ ฅ ๋ฒกํฐ์ ์์์ ์ธ๊ธํ๋ ์์ ์ถ๊ฐ ๋ชจ๋๋ค์ ๋ง๋ถ์ฌ ํด๋น ํ ํฐ์ด ํน์ ๊ฐ์ฒด๋ช ์ ์ํ ํ๋ฅ ๊ฐ์ผ๋ก ๋์ค๋๋ก ํฉ๋๋ค.
๊ฐ์ฒด๋ช ํ๊ทธ ์์ ์ข ๋ฅ๋ ๋ฐ์ดํฐ๋ฅผ ์ ์ํ ๋ ์์ ๋กญ๊ฒ ์ ํ ์ ์์ผ๋ฉฐ ์ธ๋ช , ์ง๋ช , ๊ธฐ๊ด๋ช , ๋ ์ง ๋ฑ์ด ๊ฐ์ฒด๋ช ํ๊ทธ์ ์์๊ฐ ๋ ์ ์๊ฒ ์ต๋๋ค.
์๊ณผ ๋์ผํ๊ฒ ๋๋กญ์์์ ๊ฑฐ์น๊ณ ๋ถ๋ฅํ ๊ฐ์ฒด๋ช ์ ์์ ๊ฐ์๋ก ์ฐจ์์ ๋ง๋ค๊ณ softmax ํจ์๋ฅผ ์ทจํด ํ๋ฅ ๊ฐ์ผ๋ก ๋ฐ๊ฟ์ฃผ๊ฒ ๋ฉ๋๋ค.
๊ฐ์ฒด๋ช ์ ๋ช ๊ฐ๋ก ๋๋ ๊ฒ ์ธ์ง์ ๋ฐ๋ผ ๋ค์๊ณผ ๊ฐ์ด ์ฌ๋ฌ ๊ฐ๋ก ํํํ ์ ์์ต๋๋ค.
๋ฐ๋ผ์ ๊ฐ์ฒด๋ช ์ด ์ํ ๋ฒ์ฃผ๋ฅผ ๋ฐํํ๋๋ก ๋ชจ๋ธ ์ ์ฒด๋ฅผ ์ ๋ฐ์ดํธํ๋ฉฐ ํ์ตํ๋ ๊ณผ์ ์ ๋๋ค.
BERT์ ์ ์ฒด ๊ณผ์ ์ ์ฒด๋ฅผ ๊ฐ๋จํ๊ฒ ์ ๋ฆฌํ์๋ฉด, input์ผ๋ก ๋ฌธ์ฅ์ด ๋ค์ด์ค๊ฒ ๋๋ฉด randomํ๊ฒ ์ผ๋ถ ๋ฌธ์ฅ์ด ๋ง์คํน ๋ฉ๋๋ค. ์ดํ word piece ๋ฐฉ๋ฒ์ผ๋ก ํ ํฐํ๊ฐ ์งํ๋๊ณ token embedding, segment embedding, position embedding ๊ฐ์ด ๋ํด์ ธ BERT์ ์ ๋ ฅ ๊ฐ์ผ๋ก ๋ค์ด๊ฐ๊ฒ ๋ฉ๋๋ค. BERT์ ์ ๋ ฅ๋ ๋ง์คํน ๋ ํ ํฐ์ ์์ธกํ๊ธฐ ์ํด ๋ชจ๋ธ์ ํ์ต ์ํค๋ฉฐ ๋์์ ๋ค์ ๋์จ ๋ฌธ์ฅ์ ์์ ๋์จ ๋ฌธ์ฅ์ ํ์ ๋ฌธ์ฅ์ธ์ง ๋ถ๋ฅํ๋๋ก ํ์ต์ํต๋๋ค.
์ฌ์ ํ๋ จ์ ๋ง์น BERT์ ๊ฐ์ค์น๋ฅผ ๊ทธ๋๋ก ๊ฐ์ ธ์ ๋ชฉ์ ์ ๋ง๊ฒ ์์ ์ค๋ช ํ 4๊ฐ์ง ๋ฐฉ๋ฒ ์ค ๋ชฉ์ ์ ๋ง๋ ๊ณผ์ ๋ฅผ ์ ํํ์ฌ fine tuning์ ์งํํ๊ฒ ๋ฉ๋๋ค. fine tuning ๊ณผ์ ์์ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ฏธ์ธ ์กฐ์ ํ๋ฉฐ ๋ชจ๋ธ์ ํ์ต ์์ผ ์ฑ๋ฅ์ ๋ ๋๊ฒ ๋ง๋ญ๋๋ค.