๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ? ๋ฐ์ดํฐ๋ฅผ ๋ถ์ ๋ฐ ์ฒ๋ฆฌํ๊ธฐ์ ์๋ง์ ํํ๋ก ๋ง๋๋ ๊ณผ์ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ์ ํ์ง์ด ๋์ผ๋ฉด ๋ถ์ ๊ฒฐ๊ณผ์ ์ ํ๋๋ ํฅ์ ๋น๊ต์ ์๊ฐ์ด ๋ง์ด ๊ฑธ๋ฆฌ๊ณ , ๋ฒ๊ฑฐ๋ก์ด ์์ ๋ฐ์ดํฐ ๋ถ์ ์ , ๋ฐ์ดํฐ ์ค๋น EDA(Exploratory Data Analysis) ์ ์ฒด์ ์ธ ๋ฐ์ดํฐ ํจํด ํ์ ๋ฐ์ดํฐ์ Feature ์ดํด ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ(Data Preprocessing) ์ด์์น ๋ฐ๊ฒฌ ์ด์์น ์์ Feature Engineering Feature ์ ํ Feature ์ถ์ถ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๊ณผ์ -> ๋ฐ์ดํฐ ์ ์ (Data Cleansing) ๊ฒฐ์ธก์น(missing value) ์ฒ๋ฆฌ : ๋น์ด์๋ ๋ฐ์ดํฐ ์ ๊ฑฐ, ๋์ฒด ์ด์์น (outlier) ์ฒ๋ฆฌ : ์ด์์น ์ ๊ฑฐ ๋ฐ ๋์ฒด ์ค๋ณต(duplicate data) ์ฒ๋ฆฌ : ์ค๋ณต ๋ฐ์ดํฐ..