software engineering/ํŒŒ์ด์ฌ ๋จธ์‹ ๋Ÿฌ๋‹

[Machine Learning] ๋น„์ง€๋„ ํ•™์Šต, Principal Components Analysis

jjingle 2024. 1. 18. 16:39

์ง€๋„ ํ•™์Šต

  • Y(output)๊ฐ€ ์กด์žฌ : dependent variable, response, target, label
  • X(input)๊ฐ€ ์กด์žฌ : independent variable, predictor, feature
  • Regression(ํšŒ๊ท€) ๋ฌธ์ œ์—์„œ๋Š” Y๋Š” ์—ฐ์† ๊ฐ’ : ์ œํ’ˆ ํŒ๋งค๋Ÿ‰, ์•ผ๊ตฌ์„ ์ˆ˜์˜ ์—ฐ๋ด‰ ๋“ฑ
  • Classification(๋ถ„๋ฅ˜) ๋ฌธ์ œ์—์„œ๋Š” Y๋Š” ๋‹จ์†์ ์ธ ๊ฐ’ : spam/email, ๋ถ“๊ฝƒ ์ข…๋ฅ˜ ๋“ฑ
  • N๊ฐœ์˜ training data๋กœ ํ•™์Šต
  • ๊ธฐ๋ณธ์‚ฌํ•ญ
    • ๋ณธ์ ์ด ์—†๋Š”(ํ•™์Šต์— ์‚ฌ์šฉํ•˜์ง€ ์•Š์•˜๋˜) test data์˜ output์„ ์ •ํ™•ํžˆ ์˜ˆ์ธก(prediction)
    • ์–ด๋–ค input์ด output์— ์–ด๋–ป๊ฒŒ ์˜ํ–ฅ์„ ๋ฏธ์ณค๋Š”์ง€ ์ดํ•ดํ•˜๊ณ  ๋ถ„์„(inference)
    • ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•ด๋ณด๊ณ  ๋ฐ˜๋ณต๊ณผ์ •์„ ๊ฑฐ์ณ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ด

๋น„์ง€๋„ ํ•™์Šต

  • Y(output)๊ฐ€ ์กด์žฌํ•˜์ง€ ์•Š์Œ
  • X(input)๋งŒ ์กด์žฌ
  • ๋จธ์‹ ๋Ÿฌ๋‹์˜ ๋ชฉํ‘œ๊ฐ€ ์ง€๋„ํ•™์Šต์— ๋น„ํ•ด ๋ถˆ๋ช…ํ™•ํ•จ : ์ฐจ์› ์ถ•์†Œ, ๊ตฐ์ง‘ํ™”(clustering)
  • ํ•™์Šต์˜ ๊ฒฐ๊ณผ์— ๋Œ€ํ•ด ํ‰๊ฐ€ํ•˜๊ธฐ ์–ด๋ ค์›€
  • ์ง€๋„ํ•™์Šต์˜ ์ „์ฒ˜๋ฆฌ(pre-processing) ๊ณผ์ •์œผ๋กœ์„œ ์œ ์šฉํ•จ

 

๋น„์ง€๋„ ํ•™์Šต์˜ ๋ชฉํ‘œ 

:  ๋ฐ์ดํ„ฐ(observation, measurement)์—์„œ ํฅ๋ฏธ๋กœ์šด ํŒจํ„ด์„ ์ฐพ๋Š” ๊ฒƒ

  • ๋ฐ์ดํ„ฐ๊ฐ€ ๊ฐ€์ง„ ์ •๋ณด๋ฅผ ์ž˜ ํ‘œํ˜„ํ•˜๋„๋ก ์‹œ๊ฐํ™”(visualization)
  • ๋ฐ์ดํ„ฐ์—์„œ subgroup์„ ์‹๋ณ„
  • ๋ฐ์ดํ„ฐ์˜ ์ฐจ์›์„ ์ถ•์†Œ

 

๋Œ€ํ‘œ์ ์ธ ๋น„์ง€๋„ ํ•™์Šต ๋ฐฉ๋ฒ•

  • ์ฃผ์„ฑ๋ถ„ ๋ถ„์„(PCA: Principal Components Analysis)
    • ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™” ๋˜๋Š” ์ง€๋„ํ•™์Šต์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ(์ฐจ์› ์ถ•์†Œ) ๋ฐฉ๋ฒ•
  • ๊ตฐ์ง‘ํ™”(clustering) 
    • ๋ฐ์ดํ„ฐ์—์„œ ์•Œ๋ ค์ง€์ง€ ์•Š์€ subgroup์„ ๋ฐํ˜€๋‚ด๋Š” ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•

 

๋น„์ง€๋„ ํ•™์Šต์˜ ํ™œ์šฉ

  • ์ง€๋„ํ•™์Šต์˜ ์˜ˆ์ธก์ฒ˜๋Ÿผ ๋ชฉํ‘œ๊ฐ€ ๋‹จ์ˆœํ•˜๊ณ  ๋ช…ํ™•ํ•˜์ง€ ์•Š๊ณ  ์ฃผ๊ด€์ ์ž„ => but) ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ๊ทธ ์ค‘์š”์„ฑ์ด ๋งค์šฐ ์ปค์ง€๊ณ  ์žˆ์Œ
  • Label์ด ์—†๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๋Š” ๊ฒƒ์ด ๋” ์‰ฝ๊ณ  labeling์— ๋งŽ์€ ๋น„์šฉ์ด ์†Œ์š”๋จ => ๋น„์ง€๋„ํ•™์Šต์˜ ์ค‘์š”์„ฑ ํ™•๋Œ€
  • ๋น„์ง€๋„ํ•™์Šต ์ž์ฒด๊ฐ€ ๋ฐ์ดํ„ฐ๋ฅผ ์ดํ•ดํ•˜๋Š”๋ฐ ๋„์›€์ด๋˜์–ด ํƒ์ƒ‰์  ๋ฐ์ดํ„ฐ๋ถ„์„(EDA:Exploratory Data Analysis)์— ํ™œ์šฉ

 

Principal Components Analysis(PCA)

  • ๋ฐ์ดํ„ฐ์˜ ์ €์ฐจ์›(low-dimensional) ํ‘œํ˜„(representation)์„ ๋งŒ๋“ค์–ด๋‚ด๋Š” ๋ฐฉ๋ฒ•
    • ์›๋ž˜ feature์˜ linear combination(์„ ํ˜•๊ฒฐํ•ฉ)์„ ์ฐพ์•„๋ƒ„
    • ์ฐพ์•„๋‚ธ combination์€ ์ตœ๋Œ€์˜ ๋ถ„์‚ฐ(variance, ๋ณ€๋™๋Ÿ‰)์„ ๊ฐ€์ง„ ๊ฒƒ๋ถ€ํ„ฐ ์ˆœ์„œ๋Œ€๋กœ ๋‚˜์—ด๋˜๋ฉฐ ์„œ๋กœ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์—†์Œ(uncorrelated)
  • PCA์˜ ๋‘๊ฐ€์ง€ ๋ชฉ์ 
    • ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”๋ฅผ ์œ„ํ•œ ๋„๊ตฌ
    • ์ง€๋„ํ•™์Šต์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด feature์˜ ์ƒ์„ฑ