dataCleasing 1

[BigData] ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ

๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ? ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ ๋ฐ ์ฒ˜๋ฆฌํ•˜๊ธฐ์— ์•Œ๋งž์€ ํ˜•ํƒœ๋กœ ๋งŒ๋“œ๋Š” ๊ณผ์ • ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ์˜ ํ’ˆ์งˆ์ด ๋†’์œผ๋ฉด ๋ถ„์„ ๊ฒฐ๊ณผ์˜ ์ •ํ™•๋„๋„ ํ–ฅ์ƒ ๋น„๊ต์  ์‹œ๊ฐ„์ด ๋งŽ์ด ๊ฑธ๋ฆฌ๊ณ , ๋ฒˆ๊ฑฐ๋กœ์šด ์ž‘์—… ๋ฐ์ดํ„ฐ ๋ถ„์„ ์ „, ๋ฐ์ดํ„ฐ ์ค€๋น„ EDA(Exploratory Data Analysis) ์ „์ฒด์ ์ธ ๋ฐ์ดํ„ฐ ํŒจํ„ด ํŒŒ์•… ๋ฐ์ดํ„ฐ์˜ Feature ์ดํ•ด ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ(Data Preprocessing) ์ด์ƒ์น˜ ๋ฐœ๊ฒฌ ์ด์ƒ์น˜ ์ˆ˜์ • Feature Engineering Feature ์„ ํƒ Feature ์ถ”์ถœ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ๊ณผ์ • -> ๋ฐ์ดํ„ฐ ์ •์ œ(Data Cleansing) ๊ฒฐ์ธก์น˜(missing value) ์ฒ˜๋ฆฌ : ๋น„์–ด์žˆ๋Š” ๋ฐ์ดํ„ฐ ์ œ๊ฑฐ, ๋Œ€์ฒด ์ด์ƒ์น˜ (outlier) ์ฒ˜๋ฆฌ : ์ด์ƒ์น˜ ์ œ๊ฑฐ ๋ฐ ๋Œ€์ฒด ์ค‘๋ณต(duplicate data) ์ฒ˜๋ฆฌ : ์ค‘๋ณต ๋ฐ์ดํ„ฐ..