๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ?
๋ฐ์ดํฐ๋ฅผ ๋ถ์ ๋ฐ ์ฒ๋ฆฌํ๊ธฐ์ ์๋ง์ ํํ๋ก ๋ง๋๋ ๊ณผ์
- ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ์ ํ์ง์ด ๋์ผ๋ฉด ๋ถ์ ๊ฒฐ๊ณผ์ ์ ํ๋๋ ํฅ์
- ๋น๊ต์ ์๊ฐ์ด ๋ง์ด ๊ฑธ๋ฆฌ๊ณ , ๋ฒ๊ฑฐ๋ก์ด ์์
๋ฐ์ดํฐ ๋ถ์ ์ , ๋ฐ์ดํฐ ์ค๋น
- EDA(Exploratory Data Analysis)
- ์ ์ฒด์ ์ธ ๋ฐ์ดํฐ ํจํด ํ์
- ๋ฐ์ดํฐ์ Feature ์ดํด
- ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ(Data Preprocessing)
- ์ด์์น ๋ฐ๊ฒฌ
- ์ด์์น ์์
- Feature Engineering
- Feature ์ ํ
- Feature ์ถ์ถ
๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๊ณผ์ -> ๋ฐ์ดํฐ ์ ์ (Data Cleansing)
- ๊ฒฐ์ธก์น(missing value) ์ฒ๋ฆฌ : ๋น์ด์๋ ๋ฐ์ดํฐ ์ ๊ฑฐ, ๋์ฒด
- ์ด์์น (outlier) ์ฒ๋ฆฌ : ์ด์์น ์ ๊ฑฐ ๋ฐ ๋์ฒด
- ์ค๋ณต(duplicate data) ์ฒ๋ฆฌ : ์ค๋ณต ๋ฐ์ดํฐ ์ ๊ฑฐ
- ๋ชจ์, ๋ถ์ผ์น(inconsistent value) ์ฒ๋ฆฌ : ๋ถ์ผ์น ๋ฐ์ดํฐ๋ฅผ ํ๋์ ํ์์ผ๋ก ์ผ์น
- Feature Engineering
- ๋ถ์ ์๊ณ ๋ฆฌ์ฆ์ ์๋ํ๊ธฐ ์ํด ๋ฐ์ดํฐ์ ๋ํ ๋๋ฉ์ธ ์ง์์ ํ์ฉํ์ฌ ํน์ง(Feature)์ ๋ง๋ค์ด๋ด๋ ๊ณผ์
- ๋ถ์ ๋ชจ๋ธ์ ์ํ ๋ฐ์ดํฐ ํ ์ด๋ธ์ ์ปฌ๋ผ(ํน์ง)์ ์์ฑํ๊ฑฐ๋ ์ ํํ๋ ์์ ์ ์๋ฏธํจ
- = > ํน์ง ์ ํ + ํน์ง ์ถ์ถ
'software engineering > ๋น ๋ฐ์ดํฐ ์ฒ๋ฆฌ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[BigData] ๋์ฉ๋ ๋ถ๋ฅ (0) | 2024.01.10 |
---|---|
[BigData] Spark ํ์ฉํ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ (0) | 2024.01.09 |
[BigData] ๋น ๋ฐ์ดํฐ ๋ถ์์ ์ํ ์๊ณ ๋ฆฌ์ฆ ๋ณํ (0) | 2024.01.09 |
[BigData] ๋น ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ์ (0) | 2024.01.09 |
[BigData] Spark ๋ฐ์ดํฐ ์ฒ๋ฆฌ, RDD (0) | 2024.01.06 |