
์ ์ด๋ฏธ์ง ์ฒ๋ผ BoW๋ฅผ ์ ์ฉํด ํ๋ ฌ๋ก ๋ง๋ค ์ ์๋ค. ๋ณด๋ค์ํผ ์์๋ฅผ ๊ณ ๋ คํ์ง ์๋๋ค. ๋จ์ด ๊ฐ์๋ฅผ ์ผ๋ค๊ณ ๋ด๋ ๋ฌด๋ฐฉํ๋ค.
{'it':6, 'I':5, 'the': 4, 'to':3....}
ํ์ด์ฌ์์ collection ๋ชจ๋์ Counter๋ฅผ ์ฌ์ฉํ๊ฑฐ๋ scikit-learn์์ CountVectorizer๋ฅผ ํตํด ์์ฝ๊ฒ ํ๋ ฌ์ ๋ง๋ค ์ ์๋ค.
TF-IDF
๋จ์ํ ๋ง์ด ๋ฑ์ฅํ๋ ๋จ์ด๊ฐ ์ค์ํ ๊ฒ์ ์๋๋ค. ์ ์ด๋ฏธ์ง๋ฅผ ๋ณด๋๋ผ๋ it , I , the ๊ฐ ์ ์ผ ๋ง์ ๋น๋์๋ฅผ ์ฐจ์งํ๋ค. ์ด๋ฐ ๋จ์ด๋ค์ด ์๋ ์ ๋ง ์ค์ํ ํค์๋๋ it , I ๋งํผ ๋ง์ด ๋ฑ์ฅํ์ง ์์ ์๋ ์๋ค.
์ค์๋๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ถ์ํ๊ธฐ ์ํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก TF-IDF๋ฅผ ์ฌ์ฉํ ์ ์๋ค.
TF-IDF(Term Frequency-Inverse Document Frequency)๋ ๋จ์ด๋น๋๊ฐ ์๋ ํฌ์์ฑ์ ๊ฐ์ค์น๋ฅผ ์ฃผ์ด ํค์๋๋ฅผ ๋ฝ์๋ธ๋ค๊ณ ํ ์ ์๋ค.
https://ko.wikipedia.org/wiki/Tf-idf
ํ์ด์ฌ์ ์ฌ์ดํท๋ฐ์์ TfidfVectorizer ๋ก ๊ตฌํ๊ฑฐ๋ ์ง์ ๊ณ์ฐ์์ ๊ตฌํํ ์ ์๋ค.
n-gram
N-gram์ ๋ฌธ์์์ N๊ฐ์ ์ฐ์๋ ์์๋ฅผ ์ถ์ถํ๋ ๋ฐฉ๋ฒ์ผ๋ก n์์ ๋ฐ๋ผ ๋ฌถ์ด์ ๋จ์ด๋ก ๋ณด๋ ๊ฒ์ด๋ค. ๊ฐ๊น์ด ๋จ์ด๋ ์์๋ฅผ ๊ณ ๋ คํ ์ ์์ด ๋จ์ํ ๋จ์ด ๋น๋๋ง ๋ถ์ํ๋ BoW๋ฅผ ์ด๋์ ๋ ๋ณด์ํ๋ค.
์๋ฅผ ๋ค์ด "์ค๋ ๋ ์จ๋ ๋ง์ง๋ง ์ ๋ ์๋ ๋์ด ์์"๋ฅผ n-gram์ผ๋ก ๋ฌถ์ผ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
n | name | result |
1 | Unigram | ์ค๋, ๋ ์จ๋, ๋ง์ง๋ง, ์ ๋ ์๋, ๋์ด, ์์ |
2 | Bigram | ์ค๋ ๋ ์จ๋ ,๋ ์จ๋ ๋ง์ง๋ง ,๋ง์ง๋ง ์ ๋ ์๋,์ ๋ ์๋ ๋์ด,๋์ด ์์ |
3 | Trigram | ์ค๋ ๋ ์จ๋ ๋ง์ง๋ง, ๋ ์จ๋ ๋ง์ง๋ง ์ ๋ ์๋, ๋ง์ง๋ง ์ ๋ ์๋ ๋์ด, ์ ๋ ์๋ ๋์ด ์์ |