software engineering/๋น…๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ

[BigData] ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ

jjingle 2024. 1. 9. 16:40

๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ?

๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ ๋ฐ ์ฒ˜๋ฆฌํ•˜๊ธฐ์— ์•Œ๋งž์€ ํ˜•ํƒœ๋กœ ๋งŒ๋“œ๋Š” ๊ณผ์ •
  • ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ์˜ ํ’ˆ์งˆ์ด ๋†’์œผ๋ฉด ๋ถ„์„ ๊ฒฐ๊ณผ์˜ ์ •ํ™•๋„๋„ ํ–ฅ์ƒ
  • ๋น„๊ต์  ์‹œ๊ฐ„์ด ๋งŽ์ด ๊ฑธ๋ฆฌ๊ณ , ๋ฒˆ๊ฑฐ๋กœ์šด ์ž‘์—…

 

๋ฐ์ดํ„ฐ ๋ถ„์„ ์ „, ๋ฐ์ดํ„ฐ ์ค€๋น„ 

  1. EDA(Exploratory Data Analysis)
    • ์ „์ฒด์ ์ธ ๋ฐ์ดํ„ฐ ํŒจํ„ด ํŒŒ์•…
    • ๋ฐ์ดํ„ฐ์˜ Feature ์ดํ•ด
  2. ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ(Data Preprocessing)
    • ์ด์ƒ์น˜ ๋ฐœ๊ฒฌ
    • ์ด์ƒ์น˜ ์ˆ˜์ •
  3. Feature Engineering
    • Feature ์„ ํƒ
    • Feature ์ถ”์ถœ

 

๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ๊ณผ์ • -> ๋ฐ์ดํ„ฐ ์ •์ œ(Data Cleansing)

  • ๊ฒฐ์ธก์น˜(missing value) ์ฒ˜๋ฆฌ : ๋น„์–ด์žˆ๋Š” ๋ฐ์ดํ„ฐ ์ œ๊ฑฐ, ๋Œ€์ฒด
  • ์ด์ƒ์น˜ (outlier) ์ฒ˜๋ฆฌ : ์ด์ƒ์น˜ ์ œ๊ฑฐ ๋ฐ ๋Œ€์ฒด
  • ์ค‘๋ณต(duplicate data) ์ฒ˜๋ฆฌ : ์ค‘๋ณต ๋ฐ์ดํ„ฐ ์ œ๊ฑฐ
  • ๋ชจ์ˆœ, ๋ถˆ์ผ์น˜(inconsistent value) ์ฒ˜๋ฆฌ : ๋ถˆ์ผ์น˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ•˜๋‚˜์˜ ํ˜•์‹์œผ๋กœ ์ผ์น˜
  • Feature Engineering 
    • ๋ถ„์„ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ž‘๋™ํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๋„๋ฉ”์ธ ์ง€์‹์„ ํ™œ์šฉํ•˜์—ฌ ํŠน์ง•(Feature)์„ ๋งŒ๋“ค์–ด๋‚ด๋Š” ๊ณผ์ •
    • ๋ถ„์„ ๋ชจ๋ธ์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ํ…Œ์ด๋ธ”์˜ ์ปฌ๋Ÿผ(ํŠน์ง•)์„ ์ƒ์„ฑํ•˜๊ฑฐ๋‚˜ ์„ ํƒํ•˜๋Š” ์ž‘์—…์„ ์˜๋ฏธํ•จ
    • = > ํŠน์ง• ์„ ํƒ + ํŠน์ง• ์ถ”์ถœ