ํด๋ฌ์คํฐ๋ง (Clustering)
- ์๋ธ๊ทธ๋ฃน(subgroup)์ด๋ ํด๋ฌ์คํฐ(cluster)๋ก ๋ถ๋ฆฌ๋ ๋น์ทํ ํน์ฑ์ ๊ฐ์ง ๊ทธ๋ฃน์ ์ฐพ๋ ์ผ๋ฐ์ ์ธ ๋ฐฉ๋ฒ
- ์๋ก ๋น์ทํ(๊ฐ๊น์ด) ๋ฐ์ดํฐ๋ค์ด ๊ฐ์ ๊ทธ๋ฃน(ํด๋ฌ์คํฐ)์ ํฌํจ๋๋๋ก ํ์ต
- ๋ฐ์ดํฐ๊ฐ ๋น์ทํ๋ค ๋๋ ๋ค๋ฅด๋ค ๋ผ๋ ๊ธฐ์ค๊ณผ ๊ฐ๋ ์ ๋ช ํํ ํด์ผํจ
- ์ด ๊ธฐ์ค์ ์ ํ๋ฆฌ์ผ์ด์ ๊ณผ ๋ฐ์ดํฐ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง
- Market segmetation ์์
- ๋ฐ์ดํฐ : ๋ง์ ์ฌ๋์ ๋ํ ๊ฐ๊ณ์๋, ์ง์ , ์ต๊ทผ๊ฑฐ๋ฆฌ ๋์ ๋ฑ์ ์ ๋ณด
- ๋ชฉํ : ํน์ ํ ๊ด๊ณ ํํ ๋๋ ํน์ ์ํ์ ๊ตฌ๋งค์ ๋ ๋ฏผ๊ฐํ ๊ณ ๊ฐ ๊ทธ๋ฃน์ ์๋ณํด๋ด๋ ๊ฒ
- ํด๋ฌ์คํฐ๋ง ๋ฐฉ๋ฒ
- K-means clustering : ํด๋ฌ์คํฐ์ ์ค์ฌ(centroid)์ ๊ธฐ์ค์ผ๋ก ๊ณ์ฐํ์ฌ, ๋ฐ์ดํฐ์์ ๋ฏธ๋ฆฌ ์ ํด์ง ์๋งํผ์ ํด๋ฌ์คํฐ๋ฅผ ์ฐพ๋ ๋ฐฉ๋ฒ
- Hierarchical clustering : ๊ฐ์ฅ ๊ฐ๊น์ด ๋ ํด๋ฌ์คํฐ๋ฅผ ๋ฌถ์ด๊ฐ๋ฉฐ(merge) ๊ณ์ธต์ ํ์ฑํ์ฌ ๋ฏธ๋ฆฌ ์ ํ์ง ์์ ์ ๋งํผ์ ํด๋ฌ์คํฐ๋ฅผ ์ฐพ๋ ๋ฐฉ๋ฒ
K-means clustering
- K-means clustering์์ ์ข์ ํด๋ฌ์คํฐ๋ง์ด๋, within-cluster variation์ด ๊ฐ๋ฅํํ ์์ ๊ฒ์ ์๋ฏธ
- => ๊ฐ์ ํด๋ฌ์คํฐ ๋ด์ ๊ฐ๊ฐ์ ๋ฐ์ดํฐ๊ฐ ์ผ๋ง๋ ๋ค๋ฅธ์ง(๋จ์ด์ ธ ์๋์ง) ์ธก์ ๊ฐ์ด ์์ ์๋ก ์ข๋ค.
- K n์ ๊ณฑ ๊ฐ์ ๊ฒฝ์ฐ์ ์๋ฅผ ๋ชจ๋ ์๋ํ ์ ์์ด, local optimum์ ๊ตฌํ๋ ๊ฐ๋จํ ์๊ณ ๋ฆฌ์ฆ ์ฌ์ฉ
- => ๋จ, ์ฒซ ๋จ๊ณ์์ ๋ฐ์ดํฐ๋ฅผ ์์๋ก(random) ํ ๋นํ๋ฏ๋ก ๋งค๋ฒ ๊ฒฐ๊ณผ๊ฐ ๋ฌ๋ผ์ง ์ ์์
K-means clustering ๊ณผ์
- ํด๋ฌ์คํฐ๋ง ์ํ ์ ๋ฐ์ดํฐ
- ๋ฐ์ดํฐ๋ฅผ 3๊ฐ์ ํด๋ฌ์คํฐ์ ์์๋ก ํ ๋น
- ํด๋์ค ์ค์ฌ(class centroid) ๊ณ์ฐ(ํฐ ์ ๋ชจ์)ํด๋ฌ์คํฐ๊ฐ ์์๋ก ํ ๋น๋์ด ์ค์ฌ์ด ๊ฒน์นจ
- ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ฅ ๊ฐ๊น์ด ํด๋์ค ์ค์ฌ์ ํ ๋น
- 3๋ฒ์ ๊ณผ์ ๋ฐ๋ณต
- ์ด ๊ณผ์ ์ 10๋ฒ ๋ฐ๋ณตํ ํ์ ๊ฒฐ๊ณผ
Hierarchical clustering
- K-means clustering์ ๋ฏธ๋ฆฌ ํด๋ฌ์คํฐ์ ์ K๋ฅผ ์ ํ๊ณ ํด๋ฌ์คํฐ๋ง ์ํ
- => ํด๋ฌ์คํฐ์ ์๋ฅผ ๋ฏธ๋ฆฌ ์ ์ ์์ผ๋ฏ๋ก ์๊ณ ๋ฆฌ์ฆ์ ๋จ์ ์ด ๋จ
- Hierarchical clustering์ ๋ฏธ๋ฆฌ ํด๋ฌ์คํฐ์ ์๋ฅผ ์ ํ์ง ์์
- Hierarchical clustering ์ค ์ผ๋ฐ์ ์ผ๋ก bottom-up ๋๋ agglomerative(๋ณํฉ, ํฉ์น๋) ํ์
์ ํด๋ฌ์คํฐ๋ง ๋ฐฉ๋ฒ์ด ๋ง์ด ์ฐ์
- ์(leaf)์ผ๋ก๋ถํฐ ๋ชธํต(trunk)๊น์ง ํด๋ฌ์คํฐ๋ฅผ ํฉ์ณ ๋๊ฐ๋ฉฐ ์ญํธ๋ฆฌ(dendrogram)๋ฅผ ์์ฑ
- ์์ฑ๋ dendrogram์ ์๋ผ์ ์ํ๋ ํด๋ฌ์คํฐ ์๋ฅผ ์ ํจ
Hierarchical clustering ๊ณผ์
- ๊ฐ ๋ฐ์ดํฐ ํ๋์ฉ์ ํ๋์ ํด๋ฌ์คํฐ๋ก ์ง์
- ๊ฐ์ฅ ๊ฐ๊น์ด(closest) ๋ ํด๋ฌ์คํฐ๋ฅผ ์๋ณ ํ ๋ณํฉ
- 2๋ฒ ๊ณผ์ ์ ๋ฐ๋ณต
- ๋ชจ๋ ๋ฐ์ดํฐ๊ฐ ํ๋์ ํด๋ฌ์คํฐ ํฌํจ๋๋ฉด ์ข ๋ฃ
'software engineering > ํ์ด์ฌ ๋จธ์ ๋ฌ๋' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Machine Learning] ์ค์ง๋ํ์ต (Semi-supervised learning) (1) | 2024.01.19 |
---|---|
[Machine Learning] ๋ฅ๋ฌ๋์ ๋น์ง๋ํ์ต (1) | 2024.01.19 |
[Machine Learning] ๋น์ง๋ ํ์ต, Principal Components Analysis (0) | 2024.01.18 |
[Machine Learning] SVM (Support Vector Machines) (0) | 2024.01.12 |
[Machine Learning] Aggregating decision trees (1) | 2024.01.11 |