์ž์—ฐ์–ด ์ฒ˜๋ฆฌ

Bag-of-words

์ฃผ์˜ ๐Ÿฑ 2023. 1. 2. 14:17
728x90
๋ฐ˜์‘ํ˜•
 
Bag-of-words(BoW) is a statistical language model used to analyze text and documents based on word count. 
 
 BoW๋Š” ๋‹จ์–ด์˜ ๋นˆ๋„์ˆ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ๋‹ค. BoW๊ฐ€์ •์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ์›Œ๋“œ ์ž„๋ฒ ๋”ฉ์€ ๋ฌธ์žฅ ๋‚ด ๋‹จ์–ด ๋“ฑ์žฅ ์ˆœ์„œ๋ฅผ ๊ณ ๋ คํ•˜์ง€ ์•Š๋Š”๋‹ค
 

 

 

์œ„ ์ด๋ฏธ์ง€ ์ฒ˜๋Ÿผ BoW๋ฅผ ์ ์šฉํ•ด ํ–‰๋ ฌ๋กœ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค. ๋ณด๋‹ค์‹œํ”ผ ์ˆœ์„œ๋ฅผ ๊ณ ๋ คํ•˜์ง„ ์•Š๋Š”๋‹ค. ๋‹จ์–ด ๊ฐœ์ˆ˜๋ฅผ ์„ผ๋‹ค๊ณ  ๋ด๋„ ๋ฌด๋ฐฉํ•˜๋‹ค. 

{'it':6, 'I':5, 'the': 4, 'to':3....}

 

ํŒŒ์ด์ฌ์—์„œ collection ๋ชจ๋“ˆ์˜ Counter๋ฅผ ์‚ฌ์šฉํ•˜๊ฑฐ๋‚˜ scikit-learn์—์„œ CountVectorizer๋ฅผ ํ†ตํ•ด ์†์‰ฝ๊ฒŒ ํ–‰๋ ฌ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค. 

 

TF-IDF

๋‹จ์ˆœํžˆ ๋งŽ์ด ๋“ฑ์žฅํ•˜๋Š” ๋‹จ์–ด๊ฐ€ ์ค‘์š”ํ•œ ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค. ์œ„ ์ด๋ฏธ์ง€๋ฅผ ๋ณด๋”๋ผ๋„ it , I , the ๊ฐ€ ์ œ์ผ ๋งŽ์€ ๋นˆ๋„์ˆ˜๋ฅผ ์ฐจ์ง€ํ•œ๋‹ค. ์ด๋Ÿฐ ๋‹จ์–ด๋“ค์ด ์•„๋‹Œ ์ •๋ง ์ค‘์š”ํ•œ ํ‚ค์›Œ๋“œ๋Š” it , I ๋งŒํผ ๋งŽ์ด ๋“ฑ์žฅํ•˜์ง€ ์•Š์„ ์ˆ˜๋„ ์žˆ๋‹ค. 

์ค‘์š”๋„๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ถ„์„ํ•˜๊ธฐ ์œ„ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ TF-IDF๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. 

TF-IDF(Term Frequency-Inverse Document Frequency)๋Š” ๋‹จ์–ด๋นˆ๋„๊ฐ€ ์•„๋‹Œ ํฌ์†Œ์„ฑ์— ๊ฐ€์ค‘์น˜๋ฅผ ์ฃผ์–ด ํ‚ค์›Œ๋“œ๋ฅผ ๋ฝ‘์•„๋‚ธ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. 

https://ko.wikipedia.org/wiki/Tf-idf

ํŒŒ์ด์ฌ์˜ ์‚ฌ์ดํ‚ท๋Ÿฐ์—์„œ TfidfVectorizer ๋กœ ๊ตฌํ•˜๊ฑฐ๋‚˜ ์ง์ ‘ ๊ณ„์‚ฐ์‹์„ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค. 

 

n-gram

N-gram์€ ๋ฌธ์ž์—์„œ N๊ฐœ์˜ ์—ฐ์†๋œ ์›์†Œ๋ฅผ ์ถ”์ถœํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ  n์ˆ˜์— ๋”ฐ๋ผ ๋ฌถ์–ด์„œ ๋‹จ์–ด๋กœ ๋ณด๋Š” ๊ฒƒ์ด๋‹ค. ๊ฐ€๊นŒ์šด ๋‹จ์–ด๋‚˜ ์ˆœ์„œ๋ฅผ ๊ณ ๋ คํ•  ์ˆ˜ ์žˆ์–ด ๋‹จ์ˆœํžˆ ๋‹จ์–ด ๋นˆ๋„๋งŒ ๋ถ„์„ํ•˜๋Š” BoW๋ฅผ ์–ด๋А์ •๋„ ๋ณด์™„ํ•œ๋‹ค. 

์˜ˆ๋ฅผ ๋“ค์–ด "์˜ค๋Š˜ ๋‚ ์”จ๋Š” ๋ง‘์ง€๋งŒ ์ €๋…์—๋Š” ๋ˆˆ์ด ์™€์š”"๋ฅผ n-gram์œผ๋กœ ๋ฌถ์œผ๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. 

n name result
1 Unigram ์˜ค๋Š˜, ๋‚ ์”จ๋Š”, ๋ง‘์ง€๋งŒ, ์ €๋…์—๋Š”, ๋ˆˆ์ด, ์™€์š”
2 Bigram ์˜ค๋Š˜ ๋‚ ์”จ๋Š” ,๋‚ ์”จ๋Š” ๋ง‘์ง€๋งŒ ,๋ง‘์ง€๋งŒ ์ €๋…์—๋Š”,์ €๋…์—๋Š” ๋ˆˆ์ด,๋ˆˆ์ด ์™€์š”
3 Trigram ์˜ค๋Š˜ ๋‚ ์”จ๋Š” ๋ง‘์ง€๋งŒ, ๋‚ ์”จ๋Š” ๋ง‘์ง€๋งŒ ์ €๋…์—๋Š”, ๋ง‘์ง€๋งŒ ์ €๋…์—๋Š” ๋ˆˆ์ด,  ์ €๋…์—๋Š” ๋ˆˆ์ด ์™€์š”

 

 

๋ฐ˜์‘ํ˜•