ํ ์คํธ ์ ์ฒ๋ฆฌ ๊ณผ์
1. normalization : raw string์ cleaningํ๋ ์์ (์ฌ๋ฐฑ ์ ๊ฑฐ, ๋์๋ฌธ์ ๋ณํ)
2. pre-tokenization : text๋ฅผ word๋ก ์๋ฅด๊ธฐ
3. tokenization: ๋ ์๊ฒ ์๋ฅด๋ ๊ณผ์
1. normalization
- stemming , lestemming : ๊ฐ๋ค, ๊ฐ๋ค, ๊ฐ๋,,,,-> ์ด๊ทผ="๊ฐ"
- uncased : ๋ชจ๋ ์๋ฌธ์๋ก ๋ฐ๊ฟ(He=he๋ฅผ ๋ช ์ํ๊ธฐ์ํด, ํ๊ตญ์ด๋ ํด๋น๋์ง ์์)
- ๋ถ์ฉ์ด ์ ๊ฑฐ : ํน์๋ฌธ์, ํ์ต์ ํ์ํ์ง ์์ ๋จ์ด(์์ด์ ๊ฒฝ์ฐ ๊ธธ์ด๊ฐ 1์ธ ๋จ์ด๋ฅผ ์ ๊ฑฐํ๊ธฐ๋ํจ)
- ์ ๊ท ํํ์ ํ์ฉํ ํจํด ์ ๊ฑฐ- (re, NLTK)
2. pre-tokenization
- ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ๋ฐฉ๋ฒ์ ํน์๋ฌธ์ ์ ๊ฑฐ, ๋์ด์ฐ๊ธฐ ๊ธฐ์ค์ผ๋ก ์๋ฅด๊ธฐ
- ํ๊ตญ์ด ํ ํฌ๋์ด์ ๋ก๋ KoNLPy, Khaiii, soynlp ๊ฐ ์์(soynlp๋ ๋ค๋ฅธ ๋ ๋ฐฉ๋ฒ๊ณผ ๋ค๋ฅด๊ฒ ํ๋ฅ ์ ํต๊ณ ๋ฐฉ๋ฒ์ ์ฐ๋ ๋น์ง๋์ ์ธ ํ์ต์ ์ฌ์ฉ)
KoNLPy
- Hannanum, KKma, komoran, Mecab, Okt ๊ฐ ์์ง๋ง ์ด์ค์์๋ ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข๋ค๊ณ ์๋ ค์ง(๊ธ์์๊ฐ ๋ง์์ ธ๋ ์๊ฐ์ด ๋ณ๋ก ์๊ฑธ๋ฆผ) Mecab, Okt๋ฅผ ์ฐ๋ ๊ฒฝ์ฐ๊ฐ ๋๋ค์
๋์ด์ฐ๊ธฐ ๊ต์
from pykospacing import spacing
spacing=Spacing()
kospacy = spacing(text)
๋ง์ถค๋ฒ ๊ต์
from hanspell import spell_checker
'์์ฐ์ด ์ฒ๋ฆฌ > Today I learned :' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[์์ฐ์ด ์ฒ๋ฆฌ] ํ๊ตญ์ด ํ ํฐํ, ํ์ฌํ๊น ๊ตฌํ KoNLPy (Hannanum,Kkma),Khaiii (0) | 2023.01.03 |
---|---|
[์์ฐ์ด ์ฒ๋ฆฌ]ํ๊ตญ์ด ์ ์ฒ๋ฆฌ re (0) | 2023.01.03 |
PYTORCH(ํ์ดํ ์น) cheatsheet (0) | 2022.12.12 |
ํฌํธ์ ๊ฒ์์์ง ์๋ ์๋ฆฌ, ๊ตฌ๊ธ์ pagerank ์๊ณ ๋ฆฌ์ฆ (0) | 2022.12.11 |
์ด๊ฒ์ ๊ฒ ํด๋ณธ ํ๊ตญ์ด ๋ฐ์ดํฐ ์ฆ๊ฐ ๊ธฐ๋ฒ๋ค (0) | 2022.12.11 |