ํด๋ฌ์คํฐ๋ง(Clustering)์ ๋ฐ์ดํฐ์์ ํ๋ฉด์์ผ๋ก๋ ์ ๋ณด์ด๋ ํจํด์ ์ฐพ์ ์ ์๊ฒ ํด์ค๋ค.
์ค์ํ ๊ฒ์ ๋ช ๊ฐ์ ํด๋ฌ์คํฐ๊ฐ ์๋ถํ๋ฅผ ์ ํด๋ด๋์ง ์ฐพ์๋ด๋ ๊ฒ์ด๋ค.
ํด๋ฌ์คํฐ๋ง์ ๋ํ์ ์ธ ๋ฐฉ๋ฒ์ k-means clustering ์ด ์๋ค.
k-means clustering
- group similar data points
- iterative approach (๋ฐ๋ณต์ ์ธ ์ ๊ทผ๋ฒ)
- Starting point : Randomly selected cluster centers , Variable = you're interested in (location, demographics,,,)
----> revaluate hoe good your random choice was and improve it!
๊ณผ์
1. k๋ฅผ ์ ์ํ๋ค( elbow method๋ฅผ ํ์ฉํ์ฌ elbow criterion์ ์ฌ์ฉ)
2. ๋๋ค์ผ๋ก k๊ฐ์ centroids๋ฅผ ์ ํ๋ค(k=4๋ฉด, 4๊ฐ์ data point๊ฐ ๋๋ค์ผ๋ก ์ ํ๋๊ณ , ํด๋ฌ์คํฐ์ ์ค์ฌ์ผ๋ก ํ ๋น๋๋ค.)
3. ๊ฐ ์ ๊ณผ centroid์ ๋ํ ์ ํด๋ผ๋์ ๊ฑฐ๋ฆฌ(2์ ๊ฐ ๊ฐ์ฅ ์งง์ ๊ฑฐ๋ฆฌ)๋ฅผ ๊ณ์ฐํ๋ค.
4. baseline cluster๋ฅผ ์ ํ๋ค.
5. ๊ฐ data point๊ฐ ์ด๋ ์ค์ฌ์ (centroid) ์ ๊ฐ์ฅ ์ ์ฌ๋๊ฐ ๋์์ง ์์๋ธ๋ค. ๊ทธ๋ฆฌ๊ณ ๊ทธ๋ ๊ฒ ์ฐพ์๋ธ ์ค์ฌ์ ์ผ๋ก ๊ฐ data point๋ค์ ํ ๋นํ๋ค.
6. ํด๋ฌ์คํฐ์ ์ค์ฌ์ ์ ๋ค์ ๊ณ์ฐํ๋ค. ์ฆ, 2์์ ์ฌํ ๋น๋ ํด๋ฌ์คํฐ๋ค์ ๊ธฐ์ค์ผ๋ก ์ค์ฌ์ ์ ๋ค์ ๊ณ์ฐํ๋ค
7. ๊ฐ data point์ ์์ ํด๋ฌ์คํฐ๊ฐ ๋ฐ๋์ง ์์ ๋๊น์ง 2, 3 ๊ณผ์ ์ ๋ฐ๋ณตํ๋ค.
8. ๋ฐ์ดํฐ ๊ฒ์ฆ(๊ตฐ์ง๋ถ์์ด ์ผ๋ง๋ ์ ์ด๋ฃจ์ด์ก๋์ง ํ๊ฐํ๋ค)
๊ฒ์ฆํ๊ฐ๋ฐฉ๋ฒ์ ์ด 2๊ฐ์ง์ด๋ค.
1 : ๋ถ์ฐ(variance)์ด low, tightํ๋ฉด data point๊ฐ ๊ฐ๊น์ด ์์นํ๊ณ ์๋ค๋ ๋ป์ด๋ค.
1-1: ๋ชจ์ง๋จ ๋ถํฌ๊ณต์(๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ค๋ฉด)
1-2:ํ๋ณธ๋ถ์ฐ(์ถ์ ์น ์์ฑ)
2: Dunn Index๋ก tightness์ ํด๋ฌ์คํฐ๊ฐ ์ผ๋ง๋ ๋จผ์ง ์ ์ ์๋ค.
Reference;
๋ง์ผํ ์ ์ํ ๋ฐ์ดํฐ ๋ถ์ ๋ฐฉ๋ฒ๋ก
https://ko.wikipedia.org/wiki/K-%ED%8F%89%EA%B7%A0_%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98
'๋ฐ์ดํฐ ๋ถ์ > Today I learned :' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[๋ง์ผํ ์ ์ํ ๋ฐ์ดํฐ๋ถ์4] ๊ณ ๊ฐ์์ ๊ฐ์น (CLTV,LTV) (0) | 2022.12.03 |
---|---|
[๋ง์ผํ ์ ์ํ ๋ฐ์ดํฐ๋ถ์3-1] ๊ธฐ์ ์ ๋ฐฉ๋ฒ(ํผ๋, Descriptive/Predictive Analytics, ROI&ROAS) (0) | 2022.12.02 |
[๋ง์ผํ ์ ์ํ ๋ฐ์ดํฐ๋ถ์1] ๋ง์ผํ ์์์ ์ธ๋ถํ (1) | 2022.11.30 |
Pandas ํ๋ค์ค ๊ธฐ์ด - ํ ๋จ์ ๋ฐ์ดํฐ ์ถ์ถ (0) | 2021.09.22 |
Numpy ๊ธฐ์ด (0) | 2021.09.18 |