์ž์—ฐ์–ด ์ฒ˜๋ฆฌ/๋…ผ๋ฌธ ๋ฆฌ๋ทฐ (paper review)

[NLP 1-2] BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding ๋…ผ๋ฌธ๋ฆฌ๋ทฐ - 3

์ฃผ์˜ ๐Ÿฑ 2022. 10. 31. 15:27
728x90

#์Šค์Šค๋กœ ๊ณต๋ถ€ํ•˜๊ณ  ๋งŒ๋“  ๋‚ด์šฉ์ž…๋‹ˆ๋‹ค.

BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding

https://arxiv.org/abs/1810.04805     (์›๋ฌธ)

 

์ด์ „ ๊ธ€๊ณผ ์ด์–ด์ง€๋Š” ๋‚ด์šฉ์ž…๋‹ˆ๋‹ค. 

 

- Introduction & Related Works

- Pre-training

- Fine-tuning

- Experiment

- Conclusion + koBERT

 

 

 

fine-tuning์€ ์‚ฌ์ „ํ•™์Šต๋œ ๋ฌธ์žฅ์˜ ๋ฌธ๋งฅ ์ •๋ณด ๋“ฑ์„ ๊ณ ๋ คํ•œ weight ๊ฐ’์„ ๊ฐ€์ง€๊ณ , ์‚ฌ์ „ํ›ˆ๋ จ๋œ BERT์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ทธ๋Œ€๋กœ ๊ฐ€์ ธ์™€ ๋ฌธ์„œ๋ถ„๋ฅ˜, ๊ฐœ์ฒด๋ช…์ธ์‹๊ณผ ๊ฐ™์€ ๊ณผ์ œ์— ์ ์šฉ ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋ชจ๋ธ์„ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.

 

fine-tuning์€ pre-train๊ณผ ๋‹ฌ๋ฆฌ, ์ง€๋„ ํ•™์Šต์œผ๋กœ ํ•™์Šต์ด ์ด๋ฃจ์–ด์ง€๊ฒŒ ๋œ๋‹ค๋Š” ์ฐจ์ด์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

 

์ด ๋…ผ๋ฌธ์—์„œ๋Š” 4๊ฐ€์ง€ task๋กœ fine tuning ํ•˜๋Š” ๊ณผ์ •์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. 

 

์œ„์˜ ๋‘๊ฐœ๋Š” ๋ฌธ์žฅ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๋ฌธ์žฅ์ž„๋ฒ ๋”ฉ,  ์•„๋ž˜์˜ ๋‘๊ฐœ๋Š” ํ† ํฐ ๋‹จ์œ„๋กœ ํŒŒ์•…ํ•˜๋Š” ํ† ํฐ์ž„๋ฒ ๋”ฉ์ž…๋‹ˆ๋‹ค.

  1. ์ž์—ฐ์–ด ์ถ”๋ก  ํƒœ์Šคํฌ
  2. ํ…์ŠคํŠธ ๋ถ„๋ฅ˜ ํƒœ์Šคํฌ
  3. ์งˆ๋ฌธ-์‘๋‹ต ํƒœ์Šคํฌ
  4. ๊ฐœ์ฒด๋ช… ์ธ์‹ ํƒœ์Šคํฌ

 

์ž์—ฐ์–ด ์ถ”๋ก  ํƒœ์Šคํฌ

 

์ž์—ฐ์–ด ์ถ”๋ก  ํƒœ์Šคํฌ๋Š”,  ๋ฌธ์žฅ ๋‘ ๊ฐœ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ํ•ด๋‹น ๋ฌธ์žฅ ์‚ฌ์ด์˜ ๊ด€๊ณ„๊ฐ€ ์–ด๋–ค ๋ฒ”์ฃผ์— ์†ํ•˜๋Š”์ง€ ๋ถ„๋ฅ˜ํ•˜๋Š” ๊ณผ์ œ ์ž…๋‹ˆ๋‹ค.

 

์˜ˆ๋ฅผ ๋“ค์–ด '๋‚˜ ์ถœ๊ทผํ–ˆ์–ด' ์™€ '๋‚œ ๋ฐฑ์ˆ˜์•ผ' ๋ผ๋Š” ๋‘ ๋ฌธ์žฅ์„ ๋„ฃ์—ˆ์„ ๋•Œ ์ด๊ฒƒ์„ ์ฐธ, ๊ฑฐ์ง“, ์ค‘๋ฆฝ ๋ฒ”์ฃผ์— ํ•ด๋‹น๋˜๋„๋ก ๋ถ„๋ฅ˜ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๊ทธ๋ž˜์„œ ๋‘ ๋ฌธ์žฅ์ด ๋“ค์–ด์™”์„ ๋•Œ, ํ† ํฐํ™” ํ•œ ๋’ค [CLS] ํ† ํฐ๊ณผ [SEP] ํ† ํฐ์„ ์ถ”๊ฐ€ํ•ด BERT๋ชจ๋ธ์— ์ž…๋ ฅํ•˜๊ณ  BERT ๋ชจ๋ธ ๋งˆ์ง€๋ง‰ ๋ ˆ์ด์–ด ์ถœ๋ ฅ ์ค‘ ๋‹ค๋ฅธ ๋ชจ๋“  ํ† ํฐ ์ž„๋ฒ ๋”ฉ์„ ๋ฌด์‹œํ•˜๊ณ  [CLS]์— ํ•ด๋‹นํ•˜๋Š” ํ† ํฐ ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๋งŒ ๋ฝ‘์Šต๋‹ˆ๋‹ค.

 

์ด ๋ฒกํ„ฐ์— ์ž‘์€ ์ถ”๊ฐ€ ๋ชจ๋“ˆ์„ ๋ง๋ถ™์—ฌ ๋ชจ๋ธ ์ตœ์ข… ouput์ธ ์ฐธ, ๊ฑฐ์ง“, ์ค‘๋ฆฝ ํ˜•ํƒœ๊ฐ€ ๋˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

์ด ์ž‘์€ ์ถ”๊ฐ€ ๋ชจ๋“ˆ ์•ˆ์—์„œ๋Š” ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด dropout์„ ์ ์šฉํ•˜๊ณ , ๋ถ„๋ฅ˜ํ•ด์•ผ ํ•  ๋ฒ”์ฃผ๊ฐ€ ๋‚˜์˜ค๋„๋ก ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์„ ๊ณฑํ•œ ๋’ค, softmax ํ•จ์ˆ˜๋ฅผ ์ทจํ•˜๋Š” ๊ณผ์ •์„ ๊ฑฐ์น˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์ด๋ ‡๊ฒŒ ํ•ด์„œ ๋งŒ๋“  ๋ชจ๋ธ์˜ ์ตœ์ข… ์ถœ๋ ฅ ๊ฒฐ๊ณผ์™€ ์ •๋‹ต ๋ ˆ์ด๋ธ”์„ ๋น„๊ตํ•ด ์ตœ์ข… ์ถœ๋ ฅ๊ฐ’์ด ์ •๋‹ต ๋ ˆ์ด๋ธ”๊ณผ ์ตœ๋Œ€ํ•œ ๊ฐ™์•„์ง€๋„๋ก ๋ชจ๋ธ ์ „์ฒด๋ฅผ ์—…๋ฐ์ดํŠธ ํ•˜๋ฉด์„œ ํ•™์Šต์„ ํ•ฉ๋‹ˆ๋‹ค.

 

 

 

ํ…์ŠคํŠธ ๋ถ„๋ฅ˜ ํƒœ์Šคํฌ

๋ฌธ์žฅ์ด ์ฃผ์–ด์กŒ์„ ๋•Œ, ํ•ด๋‹น ๋ฌธ์žฅ์ด ๊ธ์ •์ธ์ง€ ๋ถ€์ •์ธ์ง€ ๋ถ„๋ฅ˜ํ•˜๋Š” ํƒœ์Šคํฌ๋กœ,

์˜ˆ๋ฅผ ๋“ค์–ด '์ด ์˜ํ™” ์žฌ๋ฏธ ์—†๋„ค์š”' ์™€ ๊ฐ™์€ ๋ฌธ์žฅ์ด ๋“ค์–ด์™”์„ ๋•Œ, ์ด ๋ฌธ์žฅ์€ ๋ถ€์ •์œผ๋กœ ์˜ˆ์ธกํ•˜๋„๋ก ํ•™์Šต์‹œํ‚ค๋Š” ๊ณผ์ œ์ž…๋‹ˆ๋‹ค.

์ž…๋ ฅ ๋ฌธ์žฅ์„ ํ† ํฐํ™” ํ•œ ๋’ค 1๋ฒˆ๊ณผ ๋™์ผํ•œ ๋ฐฉ์‹์œผ๋กœ[CLS] ํ† ํฐ๊ณผ [SEP] ํ† ํฐ์„ ์ถ”๊ฐ€ํ•ด BERT๋ชจ๋ธ์— ์ž…๋ ฅํ•˜๊ณ  BERT ๋ชจ๋ธ ๋งˆ์ง€๋ง‰ ๋ ˆ์ด์–ด ์ถœ๋ ฅ ์ค‘ ๋‹ค๋ฅธ ๋ชจ๋“  ํ† ํฐ ์ž„๋ฒ ๋”ฉ์„ ๋ฌด์‹œํ•˜๊ณ  [CLS]์— ํ•ด๋‹นํ•˜๋Š” ํ† ํฐ ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๋งŒ ๋ฝ‘์Šต๋‹ˆ๋‹ค.

 

์ด ๋ฒกํ„ฐ์— ์ž‘์€ ์ถ”๊ฐ€ ๋ชจ๋“ˆ์„ ๋ง๋ถ™์—ฌ ๋ชจ๋ธ ์ตœ์ข… ouput์ด ๊ธ์ •, ๋ถ€์ •์˜ ๊ฐ ๋ฒ”์ฃผ์˜ ํ™•๋ฅ ๊ฐ’์œผ๋กœ ๋‚˜ํƒ€๋‚˜๋„๋ก ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ž‘์€ ์ถ”๊ฐ€ ๋ชจ๋“ˆ ์•ˆ์—์„œ๋Š” 1๋ฒˆ๊ณผ ๋™์ผํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ dropout๊ณผ softmax ํ•จ์ˆ˜๋ฅผ ์ทจํ•˜๋Š” ๊ณผ์ •์„ ๊ฑฐ์ณ ๋ชจ๋ธ์˜ ์ตœ์ข… ์ถœ๋ ฅ๊ณผ ์ •๋‹ต ๋ ˆ์ด๋ธ”์„ ๋น„๊ตํ•ด ๋ชจ๋ธ ์ถœ๋ ฅ์ด ์ •๋‹ต ๋ ˆ์ด๋ธ”๊ณผ ์ตœ๋Œ€ํ•œ ๊ฐ™์•„์ง€๋„๋ก ๋ชจ๋ธ ์ „์ฒด๋ฅผ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค.

 

 

 

์งˆ์˜์‘๋‹ต ํƒœ์Šคํฌ

 

์งˆ๋ฌธ๊ณผ ์งˆ๋ฌธ์— ๋Œ€ํ•œ ์‘๋‹ต์ด ํฌํ•จ๋œ ๋‹จ๋ฝ์ด ์ฃผ์–ด์กŒ์„ ๋•Œ, ์ฃผ์–ด์ง„ ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋‹ต์„ ๋‹จ๋ฝ์—์„œ ์ถ”์ถœํ•˜๋Š” ํƒœ์Šคํฌ์ž…๋‹ˆ๋‹ค.

 

์˜ˆ๋ฅผ ๋“ค์–ด ํ•œ๊ธ€์ด ์ฐฝ์ œ๋œ ์—ฐ๋„๋Š”?' ๊ณผ 'ํ•œ๊ธ€์€ 1443๋…„ ๋งŒ๋“ค์–ด์กŒ๋‹ค.'์™€ ๊ฐ™์€ ์งˆ๋ฌธ๊ณผ ๋‹จ๋ฝ์„ ๋„ฃ์—ˆ์„ ๋•Œ, ์ •๋‹ต์ธ 1443์„ ์ถœ๋ ฅํ•ด ์ฃผ๋„๋ก ํ•™์Šต ์‹œํ‚ต๋‹ˆ๋‹ค.

 

๊ทธ๋Ÿฌ๋ฉด ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด ์งˆ๋ฌธ๊ณผ ๋‹จ๋ฝ์„ ๊ฐ๊ฐ ํ† ํฐํ™” ํ•œ ๋’ค [CLS]ํ† ํฐ๊ณผ [SEP]ํ† ํฐ์„ ์ถ”๊ฐ€ํ•ด BERT์˜ ์ž…๋ ฅ๊ฐ’์œผ๋กœ ๋„ฃ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๋ชจ๋“  ์ž…๋ ฅ ํ† ํฐ์— ๋Œ€ํ•ด BERT ๋ชจ๋ธ์˜ ๋งˆ์ง€๋ง‰ ๋ ˆ์ด์–ด๋กœ ๊ฐ ํ† ํฐ๋งˆ๋‹ค ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๋ฅผ ๋ฝ‘์Šต๋‹ˆ๋‹ค.

์•ž์˜ ๊ณผ์ œ์™€๋Š” ๋‹ค๋ฅด๊ฒŒ [CLS]์˜ ๋งˆ์ง€๋ง‰ ์ถœ๋ ฅ ํ† ํฐ๋งŒ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ , ์ง€๋ฌธ ๋ถ€๋ถ„์˜ ๋งˆ์ง€๋ง‰ ์ถœ๋ ฅ ํ† ํฐ ๋ฒกํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์ด ํ† ํฐ ๋ฒกํ„ฐ์— ๊ฐ๊ฐ ์ž‘์€ ์ถ”๊ฐ€ ๋ชจ๋“ˆ์„ ๋ง๋ถ™์—ฌ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์ด ํ•ด๋‹น ํ† ํฐ์ด ์ •๋‹ต์˜ ์‹œ์ž‘์ด๋‚˜ ๋์ผ ํ™•๋ฅ ์ด ๋˜๋„๋ก ๋งŒ๋“ญ๋‹ˆ๋‹ค.

์ฆ‰, ์ง€๋ฌธ์˜ 'ํ•œ๊ธ€'๊ณผ '์€' ๋ถ€๋ถ„์€ ์ •๋‹ต์˜ ์‹œ์ž‘๋„ ๋๋„ ์•„๋‹ˆ๊ธฐ ๋•Œ๋ฌธ์— ๊ต‰์žฅํžˆ ๋‚ฎ์€ ํ™•๋ฅ ๊ฐ’์ด ๋‚˜์˜ค๊ฒŒ ํ•™์Šต ์‹œํ‚ค๊ณ , '1443' ๋ถ€๋ถ„์€ ์ •๋‹ต์˜ ์‹œ์ž‘ ๋ถ€๋ถ„์ด๊ธฐ ๋•Œ๋ฌธ์— ๋†’์€ ํ™•๋ฅ ๊ฐ’์ด ๋‚˜์˜ค๋„๋ก ํ•™์Šต ์‹œํ‚ต๋‹ˆ๋‹ค.

 

์ž‘์€ ์ถ”๊ฐ€ ๋ชจ๋“ˆ ๊ณผ์ •์—์„œ๋Š” ์–ด๋–ค ์ผ์ด ์ผ์–ด๋‚˜๋ƒ๋ฉด, ๋“œ๋กญ์•„์›ƒ๊ณผ ์†Œํ”„ํŠธ๋งฅ์Šค ํ•จ์ˆ˜๋ฅผ ์ทจํ•˜๋Š” ๊ฒƒ์€ ์ด์ „๊ณผ ๋™์ผํ•ฉ๋‹ˆ๋‹ค. ๋“œ๋กญ์•„์›ƒ์„ ์ ์šฉํ•œ ๋’ค ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์„ ๊ณฑํ•ด์„œ 2์ฐจ์› ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ 2์ฐจ์› ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์ด์œ ๋Š” ๊ฐ๊ฐ์ด ์ •๋‹ต์˜ ์‹œ์ž‘์ธ์ง€ ์•„๋‹Œ์ง€, ์ •๋‹ต์˜ ๋์ธ์ง€ ์•„๋‹Œ์ง€์˜ ์ •๋ณด๋ฅผ ๋‚˜ํƒ€๋‚ด๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

 

์ดํ›„ ์ •๋‹ต์˜ ์‹œ์ž‘์ธ์ง€ ์•„๋‹Œ์ง€๋ฅผ ํŒ๋‹จํ•˜๋Š” ๊ฐ’๋งŒ ๋ชจ์•„์„œ softmax๊ฐ’์„ ์ทจํ•ด์ค˜ ๋‚˜์˜จ ๊ฐ’, ๊ฐ™์€ ๋ฐฉ๋ฒ•์œผ๋กœ ์ •๋‹ต์˜ ๋์ธ์ง€ ์•„๋‹Œ์ง€๋ฅผ ํŒ๋‹จํ•˜๋Š” ๊ฐ’๋งŒ ๋ชจ์•„์„œ softmax๊ฐ’์„ ์ทจํ•ด์„œ ๋‚˜์˜จ ๊ฐ’์œผ๋กœ ๋‚˜๋‰˜๊ฒŒ ๋˜๋Š”๋ฐ ๊ฐ๊ฐ์€ ์ตœ์ข… ๊ฒฐ๊ณผ๊ฐ’์ด ์ •๋‹ต์˜ ์‹œ์ž‘๊ณผ ๊ด€๋ จํ•œ ๊ฐ’์„, ์ •๋‹ต์˜ ๋๊ณผ ๊ด€๋ จ๋œ ๊ฐ’์„ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค.

 

์œ„์™€ ๊ฐ™์ด ์ตœ์ข… ์ถœ๋ ฅ๊ฐ’๊ณผ ์ •๋‹ต ๋ ˆ์ด๋ธ”์„ ๋น„๊ตํ•ด ๋ชจ๋ธ ์ถœ๋ ฅ์ด ์ •๋‹ต ๋ ˆ์ด๋ธ”๊ฐ€ ์ตœ๋Œ€ํ•œ ๊ฐ™์•„์ง€๋„๋ก ๋ชจ๋ธ ์ „์ฒด๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋ฉฐ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

 

 

 

 

๊ฐœ์ฒด๋ช… ์ธ์‹

 

๊ฐœ์ฒด๋ช… ์ธ์‹์€ ๋ฌธ์žฅ์„ ํ† ํฐํ™”ํ•œ ๋’ค ํ† ํฐ ๊ฐ๊ฐ์— ์ธ๋ช…, ์ง€๋ช…, ๊ธฐ๊ด€๋ช… ๋“ฑ ๊ฐœ์ฒด๋ช… ํƒœ๊ทธ๋ฅผ ๋ถ™์—ฌ์ฃผ๋Š” ํƒœ์Šคํฌ์ž…๋‹ˆ๋‹ค.

 

์˜ˆ๋ฅผ ๋“ค์–ด, Input ํ† ํฐ์„ BERT๋ชจ๋ธ์— ์ž…๋ ฅํ•œ ๋’ค, ๋ชจ๋“  ํ† ํฐ์— ๋Œ€ํ•ด BERT ๋ชจ๋ธ ๋งˆ์ง€๋ง‰ ๋ ˆ์ด์–ด์˜ ์ถœ๋ ฅ์„ ๋ฝ‘์Šต๋‹ˆ๋‹ค.

๊ฐ๊ฐ์˜ ์ถœ๋ ฅ ๋ฒกํ„ฐ์— ์œ„์—์„œ ์–ธ๊ธ‰ํ–ˆ๋˜ ์ž‘์€ ์ถ”๊ฐ€ ๋ชจ๋“ˆ๋“ค์„ ๋ง๋ถ™์—ฌ ํ•ด๋‹น ํ† ํฐ์ด ํŠน์ • ๊ฐœ์ฒด๋ช…์— ์†ํ•  ํ™•๋ฅ ๊ฐ’์œผ๋กœ ๋‚˜์˜ค๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

๊ฐœ์ฒด๋ช… ํƒœ๊ทธ ์ˆ˜์™€ ์ข…๋ฅ˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ œ์ž‘ํ•  ๋•Œ ์ž์œ ๋กญ๊ฒŒ ์ •ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ ์ธ๋ช…, ์ง€๋ช…, ๊ธฐ๊ด€๋ช…, ๋‚ ์งœ ๋“ฑ์ด ๊ฐœ์ฒด๋ช… ํƒœ๊ทธ์˜ ์˜ˆ์‹œ๊ฐ€ ๋  ์ˆ˜ ์žˆ๊ฒ ์Šต๋‹ˆ๋‹ค.

 

์•ž๊ณผ ๋™์ผํ•˜๊ฒŒ ๋“œ๋กญ์•„์›ƒ์„ ๊ฑฐ์น˜๊ณ  ๋ถ„๋ฅ˜ํ•  ๊ฐœ์ฒด๋ช…์˜ ์ˆ˜์˜ ๊ฐœ์ˆ˜๋กœ ์ฐจ์›์„ ๋งŒ๋“ค๊ณ  softmax ํ•จ์ˆ˜๋ฅผ ์ทจํ•ด ํ™•๋ฅ ๊ฐ’์œผ๋กœ ๋ฐ”๊ฟ”์ฃผ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๊ฐœ์ฒด๋ช…์„ ๋ช‡ ๊ฐœ๋กœ ๋‚˜๋ˆŒ ๊ฒƒ ์ธ์ง€์— ๋”ฐ๋ผ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์—ฌ๋Ÿฌ ๊ฐœ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

๋”ฐ๋ผ์„œ ๊ฐœ์ฒด๋ช…์ด ์†ํ•œ ๋ฒ”์ฃผ๋ฅผ ๋ฐ˜ํ™˜ํ•˜๋„๋ก ๋ชจ๋ธ ์ „์ฒด๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋ฉฐ ํ•™์Šตํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.

 

 

 

BERT์˜ ์ „์ฒด ๊ณผ์ • ์ „์ฒด๋ฅผ ๊ฐ„๋‹จํ•˜๊ฒŒ ์ •๋ฆฌํ•˜์ž๋ฉด, input์œผ๋กœ ๋ฌธ์žฅ์ด ๋“ค์–ด์˜ค๊ฒŒ ๋˜๋ฉด randomํ•˜๊ฒŒ ์ผ๋ถ€ ๋ฌธ์žฅ์ด ๋งˆ์Šคํ‚น ๋ฉ๋‹ˆ๋‹ค. ์ดํ›„ word piece ๋ฐฉ๋ฒ•์œผ๋กœ ํ† ํฐํ™”๊ฐ€ ์ง„ํ–‰๋˜๊ณ  token embedding, segment embedding, position embedding ๊ฐ’์ด ๋”ํ•ด์ ธ BERT์˜ ์ž…๋ ฅ ๊ฐ’์œผ๋กœ ๋“ค์–ด๊ฐ€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. BERT์— ์ž…๋ ฅ๋œ ๋งˆ์Šคํ‚น ๋œ ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•ด ๋ชจ๋ธ์„ ํ•™์Šต ์‹œํ‚ค๋ฉฐ ๋™์‹œ์— ๋’ค์— ๋‚˜์˜จ ๋ฌธ์žฅ์— ์•ž์— ๋‚˜์˜จ ๋ฌธ์žฅ์˜ ํ›„์† ๋ฌธ์žฅ์ธ์ง€ ๋ถ„๋ฅ˜ํ•˜๋„๋ก ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค.

 

์‚ฌ์ „ ํ›ˆ๋ จ์„ ๋งˆ์นœ BERT์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๊ทธ๋Œ€๋กœ ๊ฐ€์ ธ์™€ ๋ชฉ์ ์— ๋งž๊ฒŒ ์•ž์„œ ์„ค๋ช…ํ•œ 4๊ฐ€์ง€ ๋ฐฉ๋ฒ• ์ค‘ ๋ชฉ์ ์— ๋งž๋Š” ๊ณผ์ œ๋ฅผ ์„ ํƒํ•˜์—ฌ fine tuning์„ ์ง„ํ–‰ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. fine tuning ๊ณผ์ •์—์„œ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๋ฉฐ ๋ชจ๋ธ์„ ํ•™์Šต ์‹œ์ผœ ์„ฑ๋Šฅ์„ ๋” ๋†’๊ฒŒ ๋งŒ๋“ญ๋‹ˆ๋‹ค.

๋ฐ˜์‘ํ˜•