์ž์—ฐ์–ด ์ฒ˜๋ฆฌ/Today I learned :

[์ž์—ฐ์–ด ์ฒ˜๋ฆฌ] ํ•œ๊ตญ์–ด ํ† ํฐํ™”, ํ’ˆ์‚ฌํƒœ๊น… ๊ตฌํ˜„ KoNLPy (Hannanum,Kkma),Khaiii

์ฃผ์˜ ๐Ÿฑ 2023. 1. 3. 18:18
728x90
๋ฐ˜์‘ํ˜•

์„ค์น˜

!pip install konlpy

ํ•œ๋‚˜๋ˆ”(Hannanum)

from konlpy.tag import Hannanum
hannanum = Hannanum()
text = '์•ˆ๋…•ํ•˜์„ธ์š”! ์˜ค๋Š˜ ๋งŽ์ด ์ถ”์›Œ์š”'
print(hannanum.morphs(text))  # Parse phrase to morphemes
print(hannanum.nouns(text))   # Noun extractors
print(hannanum.pos(text))     # POS tagger

['์•ˆ๋…•', 'ํ•˜', '์„ธ', '์š”', '!', '์˜ค๋Š˜', '๋งŽ', '์ด', '์ถฅ', '์–ด์š”']
['์•ˆ๋…•', '์˜ค๋Š˜']
[('์•ˆ๋…•', 'N'), ('ํ•˜', 'X'), ('์„ธ', 'E'), ('์š”', 'J'), ('!', 'S'), ('์˜ค๋Š˜', 'N'), ('๋งŽ', 'P'), ('์ด', 'X'), ('์ถฅ', 'P'), ('์–ด์š”', 'E')]

 

๊ผฌ๊ผฌ๋งˆ

from konlpy.tag import Kkma
kkma = Kkma()
text = '์•ˆ๋…•ํ•˜์„ธ์š”! ์˜ค๋Š˜์€ ๋งŽ์ด ์ถ”์›Œ์š”'
print(kkma.morphs(text))  # Parse phrase to morphemes
print(kkma.nouns(text))   # Noun extractors
print(kkma.pos(text))     # POS tagger

['์•ˆ๋…•', 'ํ•˜', '์„ธ์š”', '!', '์˜ค๋Š˜', '์€', '๋งŽ์ด', '์ถฅ', '์–ด์š”']
['์•ˆ๋…•', '์˜ค๋Š˜']
[('์•ˆ๋…•', 'NNG'), ('ํ•˜', 'XSV'), ('์„ธ์š”', 'EFN'), ('!', 'SF'), ('์˜ค๋Š˜', 'NNG'), ('์€', 'JX'), ('๋งŽ์ด', 'MAG'), ('์ถฅ', 'VA'), ('์–ด์š”', 'EFN')]

 

 

Khaiii

!git clone https://github.com/kakao/khaiii.git
!pip install cmake
!mkdir build
!cd build && cmake /content/khaiii
!cd /content/build/ && make all
!cd /content/build/ && make resource
!cd /content/build && make install
!cd /content/build && make package_python
!pip install /content/build/package_python
from khaiii import KhaiiiApi
khaiiApi = KhaiiiApi()
tokenized = khaiiApi.analyze('์ฝ”๋”ฉ๊ณผ AI ๊ฐœ๋ฐœ์ด ๋‘˜๋‹ค ๊ฐ€๋Šฅํ•œ ์‚ฌ๋žŒ์€ ๋งŽ์ง€ ์•Š๋‹ค.')
tokens = []
for word in tokenized:
    tokens.extend([str(m).split('/')[0] for m in word.morphs])

print(tokens)
๋ฐ˜์‘ํ˜•