๋น์ง๋ ํ์ต(Unsupervised Learning) ?
์ ๋ต ๋ฐ์ดํฐ์ ์ด ์๋ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์คํ ์ด ์ค์ค๋ก ํ์ตํ ์ ์๋๋ก ํ๋ ๋ฐฉ๋ฒ
- ์ฃผ๋ก ๋ฐ์ดํฐ๋ค์ ํน์ง์ ๊ธฐ๋ฐ์ผ๋ก ๊ตฐ์งํ๋ฅผ ์ํ
- ๋ฐ์ดํฐ์ ์ฐจ์์ด ๋์์๋ก ๋ฐ์ดํฐ์ ๋ ๋ง์ ๋ ธ์ด์ฆ๊ฐ ๋ฐ์ํ์ฌ ๊ตฐ์งํ์ ์ด๋ ค์์ ๊ฒช์(์ฐจ์์ ์ ์ฃผ)
k-ํ๊ท ์๊ณ ๋ฆฌ์ฆ (k-means)
- ์ฌ์ ์ ์ ํ k๊ฐ์ ๊ตฐ์ง์ผ๋ก ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅํ๋ ๋ฐฉ๋ฒ
- ๋น์ง๋ ํ์ต์ ์ผ์ข ์ผ๋ก ๋ ์ด๋ธ์ด ๋ฌ๋ ค ์์ง ์์ ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ ์ด๋ธ์ ๋ฌ์์ฃผ๋ ์ญํ ์ ์ํ
- ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ฃผ์ด์ง ์ค์ฌ์ (Centroid)์ ๊ธฐ์ค์ผ๋ก ๊ฐ์ฅ ๊ฐ๊น์ด ๊ตฐ์ง์ ํ ๋น
- ๊ตฐ์ง์ด ํ์ฑ๋๋ฉด ์๋กญ๊ฒ ํ์ฑ๋ ๊ตฐ์ง์ ์ค์ฌ์ (Centroid)์ ๊ธฐ์ค์ผ๋ก ๋ค์ ๋ฐ์ดํฐ์ ์ค์ฌ์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํ์ฌ ์๋ก์ด ๊ตฐ์ง์ ํ์ฑ
- ํ๊ณ : ๊ตฌ ๋ชจ์์ ๊ตฐ์ง๋ง์ ๋ถ์ํ ์ ์์
์ด๋ถ๋ฒ k-ํ๊ท (Bisecting k-means)
- ํํฅ์ ๊ตฐ์งํ ๋ฐฉ๋ฒ
- ์ต์ด์ ํ๋์ ๊ตฐ์ง์ ํ์ฑํ ๋ค, ๋ฐ๋ณต์ ์ํํ ๋๋ง๋ค ๊ตฐ์ง์ 2๊ฐ์ฉ ๋๋์ด ์ ์ฐจ์ ์ผ๋ก ๊ตฐ์ง์ ๋๋ ค๋๊ฐ
- ์ต์ด์ ๋จ์ผ ๊ทธ๋ฃน -> ์์ ๊ทธ๋ฃน์ ๊ฐ๋
- ๋ ์์ ๊ทธ๋ฃน์ผ๋ก ๋๋์ด์ง ๊ทธ๋ฃน -> ํ์ ๊ทธ๋ฃน์ ๊ฐ๋
- k-means๋ ๊ตฌ ๋ชจ์์ ๊ตฐ์ง๋ง์ ํํํ ์ ์๋ ํ๊ณ๊ฐ ์๋ ๋ฐ๋ฉด, ์ด๋ถ๋ฒ k-ํ๊ท ์ ๋น๊ตฌ๋ชจ์์ ๊ตฐ์งํ๋ฅผ ํ ์ ์์
- ์ฌ์ฉ์๊ฐ ์ค์ ํ ๋ฐ๋ณต ํ์๋งํผ ๋ฐ๋ณตํ๊ฑฐ๋, ์ํ๋ k๊ฐ์ ์ป์ ๋ ๊น์ง ๋ฐ๋ณต
๊ฐ์ฐ์์ ํผํฉ ๋ชจ๋ธ (Gaussian Mixture Model)
- Gaussian ๋ถํฌ๊ฐ ์ฌ๋ฌ ๊ฐ ํผํฉ๋ ์๊ณ ๋ฆฌ์ฆ
- ํ์ค์์ ์กด์ฌํ๋ ๋ณต์กํ ํํ์ ํ๋ฅ ๋ถํฌ๋ฅผ k๊ฐ์ ๊ฐ์ฐ์์ ๋ถํฌ๋ก ํผํฉํ์ฌ ํํํ๊ณ ์ ํ๋ ๋ชจ๋ธ
- ์ ์ฒด ๋ฐ์ดํฐ์ ๋ถํฌ์์ ํ์ ๋ถํฌ๊ฐ ์กด์ฌํ๋ค๊ณ ๊ฐ์ ํ์ฌ ๋ถ์
- k๋ ์ฌ์ฉ์๊ฐ ์์๋ก ์ง์
'software engineering > ๋น ๋ฐ์ดํฐ ์ฒ๋ฆฌ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[BigData] ํ๊ท (Regression) (0) | 2024.01.17 |
---|---|
[BigData] ๋์ฉ๋ ๋ถ๋ฅ (0) | 2024.01.10 |
[BigData] Spark ํ์ฉํ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ (0) | 2024.01.09 |
[BigData] ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ (0) | 2024.01.09 |
[BigData] ๋น ๋ฐ์ดํฐ ๋ถ์์ ์ํ ์๊ณ ๋ฆฌ์ฆ ๋ณํ (0) | 2024.01.09 |