Bagging(Bootstrap aggregation)
- ๋จธ์ ๋ฌ๋ ๋ฐฉ๋ฒ์ ๋ณ๋์ฑ(variance)์ ์ค์ด๊ธฐ ์ํ ์ผ๋ฐ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก decision tree ๋ฐฉ๋ฒ์ ํนํ ์ ์ฉํ์ฌ ๋ง์ด ์ ์ฉ๋จ
- -> ์ฌ๋ฌ ๊ฐ์ ๋ ๋ฆฝ์ ์ธ ๋ฐ์ดํฐ์ ์ ํ๋ณดํ๋ ๊ฒ์ด ์ด๋ ค์ bootstrap ๋ฐฉ๋ฒ ์ฌ์ฉ
OOB(Out-of-Bag Error Estimation)
- Bagging ๋ฐฉ๋ฒ์์๋ ์์ฃผ ์ง๊ด์ ์ธ test error ์ถ์ ๋ฐฉ๋ฒ์ด ์กด์ฌ
- Bootstrap์ ์ค๋ณต์ ํ์ฉํ๋ฏ๋ก ํ๋์ bootstrap training data์์ ํ๊ท ์ ์ผ๋ก ๋ณธ๋(original) ๋ฐ์ดํฐ์ 2/3๊ฐ ์ํ๋ง๋จ
- ๋๋จธ์ง ์ ํฉ์ ์ฌ์ฉ๋์ง ์์ 1/3์ ๋ฐ์ดํฐ๋ฅผ OOB(out-of-bag)์ผ๋ก ๋ช ๋ช
- i๋ฒ์งธ ๋ฐ์ดํฐ๊ฐ OOB์ธ ๊ฒฝ์ฐ์ decision tree์์ i๋ฒ์งธ ๋ฐ์ดํฐ์ response๋ฅผ ๊ตฌํ๊ณ ์ด๋ค์ ํ๊ท ํ์ฌ test error์ ์ถ์ ์ ์ฌ์ฉ -> ์ด ์ถ์ ๊ฐ์ B๊ฐ ์ถฉ๋ถํ ํฌ๋ฉด LOOCV์ ๊ฐ์
Random forests
- Bootstrap์ ์ํด ์์ฑ๋ ํธ๋ฆฌ๋ค์ ๊ด๊ณ์ฑ์ ๋ฎ์ถฐ ์ฑ๋ฅ์ ํฅ์ํ๋ ๋ฐฉ๋ฒ
- Bagging๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก bootstrap dataset์ ๋ํ์ฌ ํธ๋ฆฌ๋ฅผ ์์ฑํ์ง๋ง predictor์ ์ฌ์ฉ๋ฐฉ๋ฒ์ด ๋ค๋ฆ
Boosting
- Bagging๊ณผ ์ ์ฌํ ๋ฐฉ๋ฒ์ด๋ ํธ๋ฆฌ๋ฅผ ์ด์ ์ ํ์ตํ ํธ๋ฆฌ๋ก๋ถํฐ ์์ฐจ์ ์ผ๋ก(sequentially) ์ฒ์ฒํ ํ์ต(learn slowly)์ํค๋ ๋ฐฉ์
- ํ์ต(ํธ๋ฆฌ ์์ฑ) ๋ฐฉ๋ฒ
- ์๋ฌด ์ ๋ณด๋ ์๋ ํธ๋ฆฌ ์์ฑ
- ํธ๋ฆฌ๋ฅผ response์ ์ ํฉํ๋ ๊ฒ์ด ์๋ residual(์ ํฉ ํ ๋จ์ ์)์ ์ ํฉ
- Residual์ ์ ํฉํ์ฌ ๋ง๋ ํธ๋ฆฌ๋ฅผ ๊ธฐ์กด ํธ๋ฆฌ์ ์ ๋ฐ์ดํธํ๊ณ r๋ฅผ ์ ๋ฐ์ดํธ
- -> 2,3 ์ ๊ณผ์ ์ Bํ ๋ฐ๋ณต ํ ์ต์ข ํธ๋ฆฌ๋ฅผ ์ป์
- ์๊ณ ๋ฆฌ์ฆ : ์์ ํธ๋ฆฌ(์์์ terminal node)๋ฅผ ๋ํด ๊ฐ๋ ๋ฐฉ๋ฒ
Boosting ์ tuning parameter
- ํธ๋ฆฌ์ ์B
- B๊ฐ ํฌ๋ฉด ๊ณผ์ ํฉ ๋ ์ ์์ผ๋ฏ๋ก cross-validation์ผ๋ก ์ ํจ
- Shrinkage parameter ๋๋ค
- ์์ ์์์ ๊ฐ์ผ๋ก boosting์ด ์ผ๋ง๋ ๋น ๋ฅด๊ฒ ํ์ต๋๋์ง๋ฅผ ์ ํจ
- ๋ณดํต 0.01 ๋๋ 0.001 ์ ๋๋ก ์ ํ๋ฉฐ ๊ฐ์ด ์์์๋ก ๋ ํฐ B ํ์
- ๋ถ๊ธฐ์ ์(the number of splits) d
- d=1์ ๊ฒฝ์ฐ์๋ ์ข์ ์ฑ๋ฅ์ ๋
'software engineering > ํ์ด์ฌ ๋จธ์ ๋ฌ๋' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Machine Learning] ํด๋ฌ์คํฐ๋ง (Clustering) (0) | 2024.01.18 |
---|---|
[Machine Learning] ๋น์ง๋ ํ์ต, Principal Components Analysis (0) | 2024.01.18 |
[Machine Learning] SVM (Support Vector Machines) (0) | 2024.01.12 |
[Machine Learning] ํธ๋ฆฌ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ (Decision trees) (0) | 2024.01.11 |
[Machine Learning] Subset selection๊ณผ ์ต์ ๋ชจ๋ธ ์ ์ (0) | 2024.01.10 |