ν ν°νλ?
λ¬Έμ₯μ ν ν° μνμ€λ‘ λλλ κ³Όμ
ν ν¬λμ΄μ λ?
ν ν°ν μννλ νλ‘κ·Έλ¨
νκ΅μ΄ ν ν¬λμ΄μ : mecab, kkma,,,,,λ±λ± μ’ λ₯μ λ°λΌ νμ¬ νκΉ κΉμ§ νλ κ²½μ°λ μμ
<ν ν°ν λ°©μ>
1. λ¨μ΄(μ΄μ ) λ¨μ ν ν°ν
- 곡백 κΈ°μ€μΌλ‘ ν ν°ν ex) μκΉ μΉ΄νμ μμμ΄ -> μκΉ, μΉ΄νμ, μμμ΄
-- 곡백μΌλ‘ λΆλ¦¬νλ©΄ λ³λλ‘ ν ν¬λμ΄μ λ₯Ό μ°μ§ μμλ λλ€λ μ₯μ μ΄ μμ§λ§, μ΄ν μ§ν©(vocabulary)μ ν¬κΈ°κ° λ§€μ° μ»€μ§ μ μμ(μμ΄, μμμ΄, μμλλ°μκΉμ§ λͺ¨λ κ²½μ°μ μκ° μ΄νμ§ν©μ λ€μ΄κ°μΌ νκΈ° λλ¬Έ)
μ΄ν μ§ν© ν¬κΈ°κ° 컀μ§λ©΄ κ·Έλ§νΌ λͺ¨λΈ νμ΅μ΄ μ΄λ €μμ§ μ μμ
mecabκ°μ κ²½μ° μκΉ, μΉ΄νμ, μμ,μ΄ μ κ°μ΄ μλ―Έμλ λ¨μλ‘ ν ν°ννκΈ°μ μ΄νμ§ν©ν¬κΈ°κ° μ§λμΉκ² 컀μ§λ κ²μ λ§μ μλ μμ
2. λ¬Έμ λ¨μ ν ν°ν
νκΈλ‘ ννκ°λ₯ν κΈμλ λͺ¨λ 11172κ°μ΄λ―λ‘ μ΄νμ§ν©ν¬κΈ°κ° λΉκ΅μ μμ
λ―Έλ±λ‘ ν ν° λ¬Έμ λ‘λΆν° μμ λ‘μ(exμ μ‘°μ΄)
κ·Έλ¬λ μλ―Έμλ ν ν°μ΄ λκΈ° μ΄λ €μ. κ°λ Ή, μ΄μ μ μ΄μ μΈμ΄μ μ΄μ ꡬλΆμ΄ μ¬λΌμ§ -> μ±λ₯μ΄ λ¨μ΄μ§
μ,κΉ,μΉ΄,ν,μ,μ,μ,μ΄
3. μλΈμλ λ¨μ ν ν°ν
λμ μ₯μ μ μ·¨ν©ν¨.
BPE:λ°μ΄νΈ νμ΄ μΈμ½λ©
GPTλͺ¨λΈμ BPE, BERTλ μλνΌμ€λ₯Ό ν ν¬λμ΄μ λ‘ μ¬μ©
μ°μλ λκΈμλ₯Ό νλ¬Έμλ‘ μ·¨ν©ν¨
BPE νμ©ν ν ν°ν μ μ°¨
1. μ΄ν μ§ν© ꡬμΆ
- pre-tokenize: μ½νΌμ€μμ λͺ¨λ λ¬Έμ₯μ 곡백(λλ λ€λ₯Έ κΈ°μ€)μΌλ‘ λλ μ€
- μμ£Ό λ±μ₯νλ λ¬Έμμ΄ λ³ν© ν μ¬μ μ μΆκ°,, μνλ μ΄νμ§ν© λ λκΉμ§ λ°λ³΅
- κ³ λΉλ bigram(2κ°μ© λ¬Άλ) μμ λ³ν©νλ λ°©μμΌλ‘ ꡬμΆ
- μ΄ν μ§ν©μ vocab.jsonμΌλ‘ μ μ₯, λ³ν© μ°μ μμλ merge.txtλ‘ μ μ₯
2. ν ν°ν
- ν ν°ν λμ 무μ₯μ κ° μ΄μ μμ μ΄ν μ§ν©μ μλ μλΈμλκ° ν¬ν¨λμμ λ ν΄λΉ μλΈμλλ₯Ό μ΄μ μμ λΆλ¦¬
- λ¬Έμ λ¨μλ‘ λΆλ¦¬ν ν λ³ν© μ°μ μμ(merge.txtμ λ°λΌ) λΆμ¬
- μ°μ μμμ λ°λΌ λ³ν© -> μ°μ μμ λΆμ¬ -> λ°λ³΅ , μ΄νμ§ν©μ μλ ν ν°μ <unk>(λ―Έλ±λ‘ν ν°)μΌλ‘ μ²λ¦¬
μλνΌμ€
μ΄νμ§ν© ꡬμΆμ λ¬Έμμ΄ λ³ν©ν λ λΉλκ° μλ μ°λ(likelihood)λ₯Ό κ°μ₯ λμ΄λ κΈμ μμ λ³ν©
μ΄ν μ§ν©(vocab.txt)λ§ κ°μ§κ³ ν ν°ν
λΆμ λμ μ΄μ μ μ΄ν μ§ν©μ μλ μλΈμλκ° ν¬ν¨λμμ λ ν΄λΉ μλΈμλλ₯Ό μ΄μ μμ λΆλ¦¬
μ΄λ¬ν μλΈμλ νλ³΄κ° μ¬λΏμμ κ²½μ° κ°μ₯ κΈ΄ μλΈμλ μ ν
μ΄ν μ΄μ μ λλ¨Έμ§μμ μ΄ν μ§ν©μ μλ μλΈμλλ₯Ό λ€μ μ°Ύκ³ , λΆλ¦¬,,, λΆμ λμ λ¬Έμμ΄μμ μλΈμλ νλ³΄κ° νλλ μμΌλ©΄ ν΄λΉ λ¬Έμμ΄ μ 체λ₯Ό λ―Έλ±λ‘ λ¨μ΄λ‘ μ·¨κΈ
ν¨λ© padding
λ³λ ¬ μ°μ°μ μν΄μ μ¬λ¬ λ¬Έμ₯μ κΈΈμ΄λ₯Ό μμλ‘ λμΌνκ² λ§μΆ°μ£Όλ μμ
max_lengthκ° 7μΈκ²½μ°. κΈΈμ΄κ° 7λ³΄λ€ μ§§μ λ¬Έμ₯μλ μ«μ 0μ μ±μμ κΈΈμ΄ 7λ‘ λ§μΆ€
μ΄μ κ°μ΄ ν¨λ©μ λ°μ΄ν°μ νΉμ κ°μ μ±μμ λ°μ΄ν°μ ν¬κΈ°(shape)λ₯Ό μ‘°μ νλ κ²
μ«μ 0μ μ¬μ©νκ³ μλ€λ©΄ μ λ‘ ν¨λ©(zero padding)μ΄λΌκ³ νλ€
'μμ°μ΄ μ²λ¦¬ > Today I learned :' μΉ΄ν κ³ λ¦¬μ λ€λ₯Έ κΈ
[NLP] μ ν μ΄ν μ (0) | 2022.07.31 |
---|---|
[NLP] νΈλμ€ν¬λ¨Έ λΈλ‘, μ΄ν μ κ³Ό μ ν μ΄ν μ (0) | 2022.07.31 |
[NLP] μΈμ΄λͺ¨λΈ: νΈλμ€ν¬λ¨Έ κ°μ (0) | 2022.07.28 |
μ°λ likelihood (0) | 2022.07.25 |
[NLP]λ₯λ¬λ κΈ°λ° μμ°μ΄ μ²λ¦¬ λͺ¨λΈ (0) | 2022.07.24 |