๋น ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ์ ?
๊ธฐ์กด์ ๋ฐ์ดํฐ ๋ถ์์ ๋ ๋์๊ฐ, ๋๊ท๋ชจ์ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ์ฌ ๋ณด๋ค ๋์ ์ ํ์ฑ์ ํ๋ณดํ๋ ๊ธฐ์
- ๋ถ์ฐ ์์คํ ์์์๋ ๋ถ์ ๊ธฐ์ ์ ์ ์ฉํ์ฌ, ๋น ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ๋ ์ ์ฐจ๋ฅผ ๊ฑฐ์นจ
- ๊ธฐ์กด์ ๋ถ์ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ๋ฌ ๋์ ๋ถ์ฐ ๋ ธ๋๋ฅผ ํ์ฉํ์ฌ ๋ถ์ฐ์ฒ๋ฆฌํ๊ธฐ ์ํด ๊ธฐ์กด ์๊ณ ๋ฆฌ์ฆ์ ๋ณํํ๊ธฐ๋ ํจ
- ํ๋ก, ์คํํฌ ๋ฑ์ ๋ถ์ฐ ์ฒ๋ฆฌ ์์คํ ์์ ์ฌ๋ฌ ๋ถ์ ์๊ณ ๋ฆฌ์ฆ์ ๋ถ์ฐ ์ฒ๋ฆฌํด ๋ฐ์ดํฐ๋ฅผ ๊ณ ์์ผ๋ก ์ฒ๋ฆฌํ ์ ์์
- ๋ค์ํ ๋๋ฉ์ธ์ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ์ฌ ์๋ฏธ ์๋ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ํจ
๋น ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ์ ์ ์ข ๋ฅ
- ๋ถ๋ฅ(Classfication) : ์ผ์ ํ ์ง๋จ์์ ํน์ ํ ์ ์๋ฅผ ์ด์ฉํ์ฌ ๋ถ๋ฅ๋ฅผ ์ถ๋ก ํจ
- ์์ธก(Forecasting) : ๋ฐฉ๋ํ ์์ ๋ฐ์ดํฐ ์งํฉ์ ํจํด์ ๊ธฐ๋ฐ์ผ๋ก ๋ฏธ๋๋ฅผ ์์ธก
- ์๊ณ์ด ๋ถ์(Time-Series) : ์๊ฐ์ ๋ณํ์ ๋ฐ๋ผ ์ผ์ ํ ๊ฐ๊ฒฉ์ผ๋ก ์ฐ์์ ์ธ ํต๊ณ ์ซ์๋ฅผ ์ ์ฅํ ์๊ณ์ด ๋ฐ์ดํฐ์ ๋ฐํ์ ๋ ๋ถ์ ๋ฐฉ๋ฒ
- ํ๊ท๋ถ์(Regression) : ํ๋ ์ด์์ ๋ณ์ ๊ฐ์ ์ํฅ์ด๋ ๊ด๊ณ๋ฅผ ๋ถ์ ๋ฐ ์ถ์ ํ๋ ๊ธฐ์
- ์์ฝ(Summarization) : ๋ฐ์ดํฐ์ ์ผ๋ฐ์ ์ธ ํน์ฑ์ด๋ ํน์ง์ ์์ ์ ๊ฐ๋ตํ ์ ๋ฆฌํ๋ ๊ธฐ์
- ๊ตฐ์งํ(Clustering) : ๊ตฌ์ฒด์ ์ธ ํน์ฑ์ ๊ณต์ ํ๋ ๊ตฐ์ง์ ์ฐพ์. / ๋ฏธ๋ฆฌ ์ ์๋ ํน์ฑ์ ์ ๋ณด๊ฐ ์๋ค๋ ์ ์์ ๋ถ๋ฅ์ ๋ค๋ฆ
- ์ฐ๊ด ๊ท์น(Association Rule) : ๋์์ ๋ฐ์ํ ์ฌ๊ฑด ๊ฐ์ ๊ด๊ณ๋ฅผ ์ ์
- ์ฐ์์ฑ(Sequencing) : ์๊ฐ์ ๋ฐ๋ผ ์์ฐจ์ ์ผ๋ก ๋ํ๋๋ ์ฌ๊ฑด์ ์ข ์์ฑ์ ๋งํจ
01. ํ ์คํธ ๋ฐ์ดํฐ ๋ถ์?
๋น.๋ฐ์ ํ ํ ์คํธ ๋ฐ์ดํฐ๋ก ๊ตฌ์ฑ๋ ๋น ๋ฐ์ดํฐ์์ ์์ฐ์ด ์ฒ๋ฆฌ ๊ธฐ์ ์ ๊ธฐ๋ฐํ์ฌ ์๋ฏธ์๋ ์ ๋ณด๋ฅผ ์ถ์ถํ๋ ๊ธฐ์
- ๋ฐ์ดํฐ ๋ง์ด๋ ๋ถ์ ๋์์ ๊ด๊ณํ ๋ฐ์ดํฐ๋ฒ ์ด์ค, XML ๋ฌธ์์ ๊ฐ์ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ๋ค
- ํ ์คํธ ๋ง์ด๋์ ๋ถ์ ๋์์ ํ ์คํธ ๋ฌธ์, ์ด๋ฉ์ผ, HTML ํ์ผ ๋ฑ๊ณผ ๊ฐ์ ๋น.๋ฐ์ ํ์ ํ ์คํธ ๋ฐ์ดํฐ
ํ ์คํธ ๋ฐ์ดํฐ ๋ถ์ ์ ์ฐจ
- ์ ๋ณด ์์ง : ๋น.๋ฐ์ ํ์ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ๋จ๊ณ
- ์ ๋ณด ์ฒ๋ฆฌ : ๋์ฉ๋์ ๋ฐ์ดํฐ์์ ํน์ ํค์๋๋ ์ผ๋ถ ์๋ฏธ์๋ ์์๋ฅผ ์ถ์ถํ๋ ค๊ณ ์ ์ฒ๋ฆฌ๋ฅผ ํ๋ ๋จ๊ณ
- ์ ๋ณด ์ถ์ถ
- ์ํ์ ์ธ ๋ชจ๋ธ์ด๋ ์๊ณ ๋ฆฌ์ฆ์ ์ด์ฉํ์ฌ ์ ์ฉํ ์ ๋ณด๋ฅผ ์ถ์ถํด๋
- ํ ์คํธ ๋ง์ด๋์ ์ํ ์ ๋ณด ์ถ์ถ ๋ฐฉ๋ฒ์๋ ๋ค์ํ ๋ชฉ์ , ์กฐ๊ฑด, ํ๊ฒฝ ๋ฑ์ด ์๋๋ฐ, ์ด ์ ๋ณด ์ถ์ถ ๋ฐฉ๋ฒ์ ํ ์คํธ ๋ง์ด๋์์ ๊ฐ์ฅ ์ค์ํ ๋ถ๋ถ ์ค ํ๋
- ํนํ ์ ๋ณด ์ถ์ถ ๋ฐฉ๋ฒ์๋ ์๋ง์ ์ํ์ ์๊ณ ๋ฆฌ์ฆ๊ณผ ๋ฐฉ๋ฒ์ด ์์ผ๋ฉฐ, ๊ทธ ์ค ๊ฐ๋จํ๋ฉด์ ๊ฐ์ฅ ๊ฐ๋ ฅํ ๋ฐฉ๋ฒ์ธ TF-IDF (Term Frequency-Inverse Document Frequency) ๋ฐฉ์์ ๋ง์ด ์ฌ์ฉ
- ์ ๋ณด ๋ถ์ : ์ต์ข ํค์๋๋ ์๋ฏธ ์๋ ์์์ ์ฐ์ ์์๋ฅผ ๋์ถํ๋ ๋จ๊ณ
02. ์คํผ๋์ธ ๋ถ์ ๊ธฐ์
- ๋น ๋ฐ์ดํฐ์ ํฌํจ๋ ์ด๋ค ์ฌ์์ด๋ ์ธ๋ฌผ, ์ด์, ์ด๋ฒคํธ์์ ์ฌ๋๋ค์ ์๊ฒฌ์ด๋ ํ๊ฐ ๋ฑ์ ๋ถ์ํ๋ ๊ฒ
- ์คํผ๋์ธ ๋ง์ด๋์ 3๋จ๊ณ
- ํน์ง ์ถ์ถ : ์๋ฏธ ์๋ ์์, ํน์ง์ ์ถ์ถํ๋ ๋จ๊ณ
- ์๊ฒฌ ๋ถ๋ฅ : ์ด๋ค ์๋ฏธ๋ก ์ฌ์ฉ๋์๋์ง ๋ถ์ํ๊ณ ๋ถ๋ฅํ๋ ๋จ๊ณ
- ์์ฝ ๋ฐ ์ ๋ฌ : ์ ํธ๋๊ฐ ๋ฐํ์ง ์คํผ๋์ธ ์ ๋ณด๋ฅผ ์์ฝํ๊ณ ์ฌ์ฉ์์๊ฒ ์ ๋ฌํ๋ ๋จ๊ณ
- ์คํผ๋์ธ ๋ถ์ ๊ธฐ์ ์ ์ฐจ
- ๊ธ์ ๋ฐ ๋ถ์ ์ ํํํ๋ ๋จ์ด ์ ๋ณด ์ถ์ถ
- ์ธ๋ถ ํ๊ฐ ์์์ ๊ทธ๊ฒ์ด ๊ฐ๋ฆฌํค๋ ์คํผ๋์ธ์ ์ฐ๊ฒฐ ๊ด๊ณ๋ฅผ ํฌํจํ ๋ฌธ์ฅ ์ธ์
- ๊ธ์ /๋ถ์ ํํ์ ์ ๋ฐ ์ ์ฉํ ๋ฌธ์ฅ์ ์ถ์ถํ์ฌ ๋ฆฌ๋ทฐ ์์ฝ ์์ฑ
03. ๊ตฐ์งํ ?
๋ฐ์ดํฐ ๋ง์ด๋ ๊ธฐ์ ์ ํ ๋ฐฉ๋ฒ์ผ๋ก, ์ฃผ์ด์ง ๋น ๋ฐ์ดํฐ์์ ๋ฐ์ดํฐ๋ค์ ํน์ฑ์ ๊ณ ๋ คํ์ฌ ๊ตฐ์ง์ ์ ์ํ๊ณ
๊ตฐ์ง์ ๋ํํ ์ ์๋ ๋ํ์ ์ ์ฐพ๋ ๊ฒ
๊ณํต๋๋ฅผ ํตํ ๊ตฐ์ง๋ค์ ์ ์ฌ์ฑ ํ์ธ
- ํก์ ๊ณผ์ (Agglomerative) : ์๋์์ ์๋ก ์ฒ๋ฆฌํ์ฌ ๊ตฐ์ง์ ํก์, n๊ฐ์ ๊ฐ ๊ตฐ์ง๊ณผ ์์ด์ ํํ๊ฐ ์ฐ์์ ์ธ ํก์ ๊ตฐ์งํ ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌ๋จ
- ๋ถ๋ฆฌ ๊ณผ์ (Divisive) : ์์์ ์๋๋ก ๋ถ๋ฅํ๋ ๊ณผ์ ์ผ๋ก, ํ๋์ ๊ตฐ์ง์ n๊ฐ์ ์ํ์ด ์์ผ๋ฉฐ ์ฐ์์ ์ธ ๋ถ๋ฆฌ ๊ณผ์ ์ผ๋ก ์ํ
๋ถํ ์ ๊ตฐ์งํ ๊ธฐ์
- k๊ฐ์ ๋ถํ ์์ญ์ ๊ฒฐ์ ํ๋ ๋ฐฉ๋ฒ
- ์ ํด๋ฆฌ๋์ ๊ฑฐ๋ฆฌ(Euclidean Distance) ๊ณ์ฐ๋ฒ์ ๊ธฐ๋ฐ
- K-means ์๊ณ ๋ฆฌ์ฆ : ์ฌ์ ์ ์ ํ k๊ฐ์ ๊ตฐ์ง์ผ๋ก ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฅํ๋ ๋ฐฉ๋ฒ
K-means ์๊ณ ๋ฆฌ์ฆ ์ํ ๊ณผ์
- ๊ตฐ์ง์ ๊ฐ์์ธ k๋ฅผ ๊ฒฐ์ ํ๊ณ ๊ฐ ๊ตฐ์ง์ ์ด๊ธฐ๊ฐ์ผ๋ก ์ค์ฌ ํ ๊ฐ์ฉ์ ํ ๋นํ์ฌ ์์น๋ฅผ ์ค์
- ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ฃผ์ด์ง ์ค์ฌ์ ์ ๊ธฐ์ค์ผ๋ก ๊ฐ์ฅ ๊ฐ๊น์ด ๊ตฐ์ง์ ํ ๋น. ์ค์ฌ์ ๊ณผ์ ๊ฑฐ๋ฆฌ๋ ์ ํด๋ฆฌ๋์ ๊ฑฐ๋ฆฌ ๊ณ์ฐ ๋ฐฉ๋ฒ์ ๋ฐ๋ฆ
- ํ ๋น๋ ๋ฐ์ดํฐ๋ฅผ ์ค์ฌ์ผ๋ก ๊ฐ ๊ตฐ์ง์ ์๋ก์ด ์ค์ฌ์ ์ ๊ณ์ฐ
- ์๋ก์ด ์ค์ฌ์ ์ด ๊ธฐ์กด์ ์ค์ฌ์ ๊ณผ ์ฐจ์ด๊ฐ ์์ผ๋ฉด 2๋ก ๋๋์๊ฐ ๋ฐ๋ณต. ์๋ก์ด ์ค์ฌ์ ์ด ๊ธฐ์กด์ ์ค์ฌ์ ๊ณผ ์ฐจ์ด๊ฐ ์์ผ๋ฉด ์๊ณ ๋ฆฌ์ฆ์ ์ข ๋ฃ
04. ๊ทธ๋ํ ๋ถ์ ๊ธฐ์ ?
- ํ์ด์ค๋ถ์ด๋ ํธ์ํฐ์ ๊ฐ์ ์์ ๋ฏธ๋์ด์ ๋ฐ์ดํฐ๋ฅผ ํํํ๋ ๋ฐฉ๋ฒ
- ๊ทธ๋ํ์์ ๋ถ์ ๊ธฐ์ ์ ์ ์ฉํ๋ ๊ธฐ์ , ๊ทธ๋ํผ ๋ถ์ ๊ธฐ์ ์ ์ผ์ ๋น๋์ ์ด์์ ํน์ ํจํด์ ๋ชจ๋ ์ฐพ์๋ด๋ ๋ฐฉ๋ฒ
๋น๋ฐ ๋ถ๋ถ ๊ทธ๋ํ ๋ถ์ ๊ธฐ๋ฒ
- ์ ์ฒด ๊ทธ๋ํ์์ ์์ฃผ ๋ฐ์ํ๋ ๋ถ๋ถ ๊ทธ๋ํ๋ฅผ ๋ฐ๊ฒฌํจ
- ๊ทธ๋ํ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ๋ชจ๋ ๋น๋ฐ ๋ถ๋ถ ๊ทธ๋ํ๋ฅผ ์ฐพ๋ ๊ธฐ๋ฒ
- ํ๋ ์ต๊ด, ๊ตฌ๋งค ํจํด, ์ธ๊ฐ๊ด๊ณ ์ ์ง ํจํด ๋ฑ์ ์ ์ถํ์ฌ ์ค์ํ ๋จ์๋ฅผ ์ฐพ์๋ผ ์ ์์
'software engineering > ๋น ๋ฐ์ดํฐ ์ฒ๋ฆฌ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[BigData] ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ (0) | 2024.01.09 |
---|---|
[BigData] ๋น ๋ฐ์ดํฐ ๋ถ์์ ์ํ ์๊ณ ๋ฆฌ์ฆ ๋ณํ (0) | 2024.01.09 |
[BigData] Spark ๋ฐ์ดํฐ ์ฒ๋ฆฌ, RDD (0) | 2024.01.06 |
[BigData] Spark(์คํํฌ) (0) | 2024.01.05 |
[BigData] MapReduce(๋งต๋ฆฌ๋์ค) ํ๋ก๊ทธ๋๋ฐ ๋ชจ๋ธ (1) | 2024.01.05 |