๊ธฐ๊ณ๊ฐ ์ฌ๋๋ง์ ์์๋ฃ๊ฒ ํ๋ ค๋ฉด ๋ชจ๋ธ์ด ์์ด์ผ ํจ
์ ๋ ฅ(์์ฐ์ด) --------------> ๋ชจ๋ธ(ํจ์) -----------> ์ถ๋ ฅ(ํ๋ฅ ๊ฐ: 0~1์ฌ์ด)
NLP๋ชจ๋ธ
: ์์ฐ์ด๋ฅผ ์ ๋ ฅ๋ฐ์ ํด๋น ์ ๋ ฅ์ด ํน์ ๋ฒ์ฃผ์ผ ํ๋ฅ ์ ๋ฐํํ๋ ํ๋ฅ ํจ์์ด๋ค.
์ถ๋ ฅ๋ ํ๋ฅ ์ post processing(ํ์ฒ๋ฆฌ)ํด์ ์์ฐ์ด๋ก ๋ค์ ๋ฐ๊ฟ
๊ฐ์ฅ ์ธ๊ธฐ์๋ ๋ชจ๋ธ - ๋ฅ๋ฌ๋(๋ง์ ์๋์ธต ์ฌ์ฉ) ex) GPT, BERT,,,
๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ํ์ต
ํ์ต ๋ฐ์ดํฐ์ ๋ ์ด๋ธ์ด ์์ด์ผ ํจ ex) ๊ฐ์ฑ๋ถ์์ ๊ฒฝ์ฐ - ๊ธ์ 1 ์ค๋ฆฝ0 ๋ถ์ 0
๋ชจ๋ธ์ด ์ค์ค๋ก ํจํด์ ์ตํ ์ ์๋๋ก train(ํ์ต)
train : ์ถ๋ ฅ์ด ์ ๋ต์ ๊ฐ๊น์์ง๋๋ก ๋ชจ๋ธ์ ์ ๋ฐ์ดํธํ๋ ๊ณผ์
Transfer learning ์ ์ด ํ์ต : ํน์ ํ ์คํฌ๋ฅผ ํ์ตํ ๋ชจ๋ธ์ ๋ค๋ฅธ ํ ์คํฌ ์ํ์ ์ฌ์ฌ์ฉํ๋ ๊ธฐ๋ฒ
์ฅ์ : ๋ชจ๋ธ์ ํ์ต ์๋๊ฐ ๋นจ๋ผ์ง๊ณ ์๋ก์ด ํ ์คํฌ๋ฅผ ๋ ์ ์ํํจ
Upstream task : ๋ค์ ๋จ์ด ๋งํ๊ธฐ, ๋น์นธ ์ฑ์ฐ๊ธฐ ๋ฑ ๋๊ท๋ชจ ์ฝํผ์ค์ ๋ฌธ๋งฅ์ ์ดํดํ๋ ๊ณผ์
- GPT ๊ณ์ด ๋ชจ๋ธ : ๋ค์ ๋จ์ด ๋งํ๊ธฐ๋ก Pretrain
-----> ์ธ์ด ๋ชจ๋ธ ( ๋ค์ ๋จ์ด ๋งํ๊ธฐ๋ก Upstream task ์ํํ ๋ชจ๋ธ)
- BERT ๊ณ์ด ๋ชจ๋ธ : ๋น์นธ ์ฑ์ฐ๊ธฐ๋ก Pretrain
-----> Masked ์ธ์ด ๋ชจ๋ธ ( ๋ค์ ๋จ์ด ๋งํ๊ธฐ๋ก Upstream task ์ํํ ๋ชจ๋ธ)
Downstream task : ๋ฌธ์ ๋ถ๋ฅ, ๊ฐ์ฒด๋ช ์ธ์ ๋ฑ์ ๊ตฌ์ฒด์ ์ธ ๋ฌธ์
Pretrain : Upstream task๋ฅผ trainํ๋ ๊ณผ์
Pretrainํ๋ ์ด์ ? Downstream task๋ฅผ ์ํ๊ธฐ ์ํด!
Fine-tuning(ํ์ธํ๋) : Downstream task trainํ๋ ๊ณผ์
ex) ๋ฌธ์ ๋ถ๋ฅ์ ๊ฒฝ์ฐ Pretrain๋ง์น BERT ๋ชจ๋ธ ์ ์ฒด๋ฅผ ๋ฌธ์ ๋ถ๋ฅ ๋ฐ์ดํฐ๋ก ์ ๋ฐ์ดํธ ํจ
๋ชจ๋ธ train์ ํ์ดํ๋ผ์ธ
- ๊ฐ์ข ์ค์ ๊ฐ ์ค์ (ํ์ดํผํ๋ผ๋ฏธํฐ-learning rate, batch_size..)
- ๋ฐ์ดํฐ ๋ด๋ ค๋ฐ๊ธฐ
- Pretrain ๋ง์น ๋ชจ๋ธ ์ค๋น
- ํ ํฌ๋์ด์ ์ค๋น
- ๋ฐ์ดํฐ ๋ก๋ ์ค๋น
- ํ ์คํฌ ์ ์
- ๋ชจ๋ธ trainํ๊ธฐ
'์์ฐ์ด ์ฒ๋ฆฌ > Today I learned :' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[NLP] ์ ํ ์ดํ ์ (0) | 2022.07.31 |
---|---|
[NLP] ํธ๋์คํฌ๋จธ ๋ธ๋ก, ์ดํ ์ ๊ณผ ์ ํ ์ดํ ์ (0) | 2022.07.31 |
[NLP] ์ธ์ด๋ชจ๋ธ: ํธ๋์คํฌ๋จธ ๊ฐ์ (0) | 2022.07.28 |
์ฐ๋ likelihood (0) | 2022.07.25 |
[NLP] ํ ํฐํ , BPE, ์๋ํผ์ค (1) | 2022.07.25 |