๋ถ๋ฅ(Classification) ?
์ฃผ์ด์ง ์ ๋ ฅ์ ํน์ง์ ์ฌ์ฉํ์ฌ ํด๋์ค๋ฅผ ์์ธกํ๋ ์์
- ์ง๋ํ์ต์ ์ผ์ข ์ผ๋ก ๊ธฐ์กด์ ์กด์ฌํ๋ ํด๋์ค๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ชจ๋ธ์ ํ์ตํ์ฌ ์๋กญ๊ฒ ๊ด์ธก๋ ๋ฐ์ดํฐ์ ํด๋์ค๋ฅผ ํ๋ณ
- ํด๋์ค(์ข ๋ฅ)๋ฅผ ์์ธกํ๋ ์์ ์ผ๋ก์จ, ํ๊ท(์ฐ์๋ ๊ฐ)์ ์์ธกํ๋ ๊ฒ๊ณผ๋ ์ฐจ์ด๊ฐ ์์
๋ถ๋ฅ ํ์ฉ ์ฌ๋ก
- ์ ์ฉ ๋ฆฌ์คํฌ ์์ธก : ์ฌ๋ฌ ๋ณ์(์ฌ์ฉ์ ์ ๋ณด)๋ฅผ ๊ณ ๋ คํ์ฌ ๋์ถ ์ ๊ณต ์ฌ๋ถ ํด๋์ค๋ก ํ๋ณ
- ๋ด์ค๊ธฐ์ฌ ๋ถ๋ฅ : ์๊ณ ๋ฆฌ์ฆ์ ํ์ต์์ผ ๋ด์ค๊ธฐ์ฌ์ ์ฃผ์ ๋ฅผ ์์ธก
- ์ฌ์ฉ์ ํ์ ๋ถ๋ฅ : ์ผ์์์ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ ์ฌ์ฉ์์ ํ๋์ ์์ธก
๋ถ๋ฅ ์ ํ
- ์ด์ง ๋ถ๋ฅ(Binary Classification)
- ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ๋ ๊ฐ์ ํด๋์ค ์ค ํ๋์ ํด๋์ค๋ก ์์ธก
- ex. ์คํธ ๋ฉ์ผ ํ๋ณ(์คํธ ๋๋ ์ ์), ๋์ถ ์น์ธ(์น์ธ ๋๋ ๊ฑฐ์ ), ๊ณ ๊ฐ ์ดํ ์์ธก(์ดํ ๋๋ ์๋ฅ)
- ๋ค์ค ํด๋์ค ๋ถ๋ฅ(Multi-Class Classification)
- ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ธ ๊ฐ ์ด์์ ํด๋์ค ์ค ํ๋์ ํด๋์ค๋ก ์์ธก
- ex. ๋ ์จ ์์ธก, ๋๋ฌผ ๋ถ๋ฅ, ์ ๊ธ์จ ๋ถ๋ฅ
- ๋ค์ค ๋ ์ด๋ธ ๋ถ๋ฅ(Multi-Label Classification)
- ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ธ ๊ฐ ์ด์์ ํด๋์ค ์ค ์ฌ๋ฌ ํด๋์ค๋ก ์์ธก
- ex. ์ํ ์ฅ๋ฅด ๋ถ๋ฅ
๋ถ๋ฅ ๋ชจ๋ธ
- ์์ฌ๊ฒฐ์ ํธ๋ฆฌ(Decision Tree)
- ์ธ๊ฐ์ด ์์ฃผ ํ์ฉํ๋ ๋จ์ํ ์์ฌ๊ฒฐ์ ๋ชจํ๊ณผ ์ ์ฌ
- ์์ฌ๊ฒฐ์ ๊ท์น์ ํธ๋ฆฌ๊ตฌ์กฐ๋ก ๋ํํํ์ฌ ๋ถ๋ฅ๋ ์์ธก์ ์ํํ๋ ๋ถ์ ๊ธฐ๋ฒ
- ๋๋ค ํฌ๋ ์คํธ(Random Forest)
- ์์ฌ ๊ฒฐ์ ํธ๋ฆฌ์ ๊ณผ์ ํฉ ์ํ์ ์ค์ด๊ธฐ ์ํ ํ์ฅ ๋ชจ๋ธ
- ์์ธก ๋ชจ๋ธ๋ค์ ์์ธก์ ํฌํ๋ ํ๊ท ์ ์ด์ฉํด ์์ธก ์ ํ์ฑ์ ํฅ์
- ๋ค์์ ๋๋ฌด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์ธกํ๊ธฐ ๋๋ฌธ์, ํ๋์ ๋๋ฌด ์ค๋ฅ์์ ๋ฐ์ํ๋ ์ํฅ๋ ฅ์ ์ค์ฌ ์ ์ฒด ์์ธก ์ ํ์ฑ์ ๋์
- ์ฌ๋ฌ ํ์ต ๋ชจ๋ธ์ ํผํฉํ์ฌ ์ ์ฒด ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ๋ ์์๋ธ ํ์ต๋ฒ์ ์ผ์ข
- ๊ทธ๋๋์ธํธ ๋ถ์คํฐ๋ ํธ๋ฆฌ(Gradient Boosted Tree)
- ๋๋ค ํฌ๋ ์คํธ์ ๋ง์ฐฌ๊ฐ์ง๋ก ์ฌ๋ฌ ๊ฐ์ ์์ฌ๊ฒฐ์ ํธ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ฒด ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ๋ ์์๋ธ ๋ฐฉ์์ ๋ชจ๋ธ
- ๊ทธ๋๋์ธํธ ๋ถ์คํ ์ ์ค๋ฅ ๋ฐ์ดํฐ์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๋ฉด์ ๋ถ์คํ ์ ์ํ
'software engineering > ๋น ๋ฐ์ดํฐ ์ฒ๋ฆฌ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[BigData] ๋น์ง๋ ํ์ต(Unsupervised Learning) (0) | 2024.01.18 |
---|---|
[BigData] ํ๊ท (Regression) (0) | 2024.01.17 |
[BigData] Spark ํ์ฉํ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ (0) | 2024.01.09 |
[BigData] ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ (0) | 2024.01.09 |
[BigData] ๋น ๋ฐ์ดํฐ ๋ถ์์ ์ํ ์๊ณ ๋ฆฌ์ฆ ๋ณํ (0) | 2024.01.09 |