software engineering/๋น…๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ

[BigData] ํšŒ๊ท€ (Regression)

jjingle 2024. 1. 17. 15:25

ํšŒ๊ท€(regression) ?

์ฃผ์–ด์ง„ ์ž…๋ ฅ์˜ ํŠน์ง•์œผ๋กœ๋ถ€ํ„ฐ ์‹ค์ˆ˜(์—ฐ์†ํ˜• ๋ณ€์ˆ˜)๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ํ–‰์œ„
  • ๋ฐ์ดํ„ฐ ๋ณ€์ˆ˜๋“ค ๊ฐ„์— ํ•จ์ˆ˜๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•˜์—ฌ ํ†ต๊ณ„์  ์ถ”๋ก ์„ ํ•˜๋Š” ๊ธฐ์ˆ 
  • ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•จ์ˆ˜๋ฅผ ์ถ”์ •ํ•˜์—ฌ, ์˜ˆ์ธก ๊ฐ’๊ณผ ์‹ค์ œ๊ฐ’์˜ ์˜ค์ฐจ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๊ฒƒ์ด ํšŒ๊ท€์˜ ๋ชฉํ‘œ

 

ํšŒ๊ท€์˜ ์œ ํ˜•

  • ๋‹จ์ˆœ ์„ ํ˜• ํšŒ๊ท€(Simple linear regression) : ๊ฐ€์žฅ ๊ธฐ๋ณธ์ ์ธ ๋‹จ๋ณ€๋Ÿ‰ ๋ชจ๋ธ๋กœ์„œ, ๋…๋ฆฝ๋ณ€์ˆ˜๊ฐ€ ํ•˜๋‚˜์ธ ํšŒ๊ท€ ๋ชจ๋ธ
  • ๋‹ค์ค‘ ์„ ํ˜• ํšŒ๊ท€(Multiple linear regression) : ๋‹ค๋ณ€๋Ÿ‰ ๋ชจ๋ธ๋กœ์„œ, ๋…๋ฆฝ๋ณ€์ˆ˜๊ฐ€ ๋‘˜ ์ด์ƒ์ธ ํšŒ๊ท€ ๋ชจ๋ธ

 

MILib ์˜ ํšŒ๊ท€ ๋ชจ๋ธ

  1. ์„ ํ˜• ํšŒ๊ท€(Linear Regression)
  2. ์ผ๋ฐ˜ํ™” ์„ ํ˜• ํšŒ๊ท€(Generalized linear Regression)
    • ์„ ํ˜•ํšŒ๊ท€๋ถ„์„์—์„œ ๊ฒฐ๊ณผ๋ณ€์ˆ˜๋Š” ์—ฐ์†์ ์ด๋ฉด์„œ ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด์ง€๋งŒ, ํ˜„์‹ค ๋ฌธ์ œ์—์„œ ๊ทธ๋ ‡์ง€ ์•Š์€ ๋ฌธ์ œ๋„ ์กด์žฌ
    • ex) ๊ฒฐ๊ณผ ๋ณ€์ˆ˜ ๋‹ค๋ถ„ํ˜• : ๋ณด์ˆ˜/์ง„๋ณด/์ค‘๋„,   ๊ฒฐ๊ณผ ๋ณ€์ˆ˜๊ฐ€ ํšŸ์ˆ˜: ์›”๊ฐ„ ๋ฒ”์ฃ„ํšŸ์ˆ˜, ์ผ๊ฐ„ ์ƒ๋‹ดํšŸ์ˆ˜
  3. ์˜์‚ฌ๊ฒฐ์ •ํŠธ๋ฆฌ(Decision Tree)
  4. ๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ(Random Forest)
  5. ๊ทธ๋ž˜๋””์–ธํŠธ ๋ถ€์Šคํ‹ฐ๋“œ ํŠธ๋ฆฌ(Gradient Boosted Tree)