μžμ—°μ–΄ 처리/Today I learned :

[μžμ—°μ–΄ 처리] ν•œκ΅­μ–΄ 토큰화, ν’ˆμ‚¬νƒœκΉ… κ΅¬ν˜„ KoNLPy (Hannanum,Kkma),Khaiii

주영 🐱 2023. 1. 3. 18:18
728x90
λ°˜μ‘ν˜•

μ„€μΉ˜

!pip install konlpy

ν•œλ‚˜λˆ”(Hannanum)

from konlpy.tag import Hannanum
hannanum = Hannanum()
text = 'μ•ˆλ…•ν•˜μ„Έμš”! 였늘 많이 μΆ”μ›Œμš”'
print(hannanum.morphs(text))  # Parse phrase to morphemes
print(hannanum.nouns(text))   # Noun extractors
print(hannanum.pos(text))     # POS tagger

['μ•ˆλ…•', 'ν•˜', 'μ„Έ', 'μš”', '!', '였늘', '많', '이', 'μΆ₯', 'μ–΄μš”']
['μ•ˆλ…•', '였늘']
[('μ•ˆλ…•', 'N'), ('ν•˜', 'X'), ('μ„Έ', 'E'), ('μš”', 'J'), ('!', 'S'), ('였늘', 'N'), ('많', 'P'), ('이', 'X'), ('μΆ₯', 'P'), ('μ–΄μš”', 'E')]

 

꼬꼬마

from konlpy.tag import Kkma
kkma = Kkma()
text = 'μ•ˆλ…•ν•˜μ„Έμš”! μ˜€λŠ˜μ€ 많이 μΆ”μ›Œμš”'
print(kkma.morphs(text))  # Parse phrase to morphemes
print(kkma.nouns(text))   # Noun extractors
print(kkma.pos(text))     # POS tagger

['μ•ˆλ…•', 'ν•˜', 'μ„Έμš”', '!', '였늘', '은', '많이', 'μΆ₯', 'μ–΄μš”']
['μ•ˆλ…•', '였늘']
[('μ•ˆλ…•', 'NNG'), ('ν•˜', 'XSV'), ('μ„Έμš”', 'EFN'), ('!', 'SF'), ('였늘', 'NNG'), ('은', 'JX'), ('많이', 'MAG'), ('μΆ₯', 'VA'), ('μ–΄μš”', 'EFN')]

 

 

Khaiii

!git clone https://github.com/kakao/khaiii.git
!pip install cmake
!mkdir build
!cd build && cmake /content/khaiii
!cd /content/build/ && make all
!cd /content/build/ && make resource
!cd /content/build && make install
!cd /content/build && make package_python
!pip install /content/build/package_python
from khaiii import KhaiiiApi
khaiiApi = KhaiiiApi()
tokenized = khaiiApi.analyze('μ½”λ”©κ³Ό AI 개발이 λ‘˜λ‹€ κ°€λŠ₯ν•œ μ‚¬λžŒμ€ λ§Žμ§€ μ•Šλ‹€.')
tokens = []
for word in tokenized:
    tokens.extend([str(m).split('/')[0] for m in word.morphs])

print(tokens)
λ°˜μ‘ν˜•