01. ๋ถ์ฐ ์ฒ๋ฆฌ ๊ธฐ๋ฒ ํ์ฉ
- ๊ธฐ์กด์ ๋ถ์ ์๊ณ ๋ฆฌ์ฆ์ ๋ถ์ฐ ์ฒ๋ฆฌ ๊ธฐ๋ฒ์ ํ์ฉํ์ฌ ๋น ๋ฐ์ดํฐ๋ฅผ ๊ณ ์์ฒ๋ฆฌํด์ผํจ
- ๊ธฐ์กด์ ์๊ณ ๋ฆฌ์ฆ์ ๋ถ์ฐ ์ฒ๋ฆฌ ๊ธฐ๋ฒ์ ๋ง๊ฒ ๋ณํํ์ฌ ๋ฐ์ดํฐ ๋ถ์
- MapReduce ๋ฐฉ์์ ๋ถ์ฐ์ฒ๋ฆฌ ๊ธฐ๋ฒ์ ์ ์ฉํ ์๊ณ ๋ฆฌ์ฆ ๋ณํ์ ํ ์ ์์
02. ๋์ฉ๋ ๋ฐ์ดํฐ๋ฅผ ๋์์ผ๋ก ํ ๋ถ์
- ์์
๋คํธ์ํฌ ํต๊ณ ๋ฐฉ์ -> ๋งต๋ฆฌ๋์ค
- ๋งต ํจ์(Mapper)์ ๋ฆฌ๋์ค(Reducer) ํจ์์ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ๋ชจ๋ <ํค, ๊ฐ> ์์์์ผ๋ก ์ ์ํจ
- employee.txt. ๋ฐ์ดํฐ ํ์ผ์์ FIRST๋ณ๋ก ๋น๋์๊ฐ ์ผ๋ง์ธ์ง ์ธก์ ํ๋ ๋งต๋ฆฌ๋์ค๋ฅผ ํ๋ก๊ทธ๋๋ฐ ํ๊ณ ์ ํจ
- ์์
๋คํธ์ํฌ ํต๊ณ ๋ฐฉ์
- ์ ๋ฐ์ดํฐ๋ฅผ ์์ง๋ก๋ง ํํ
- ๊ฐ ๋งต ํจ์์์๋ ๋๋์ด์ง ์์ง์ <ํค, ๊ฐ> ์์์์์ ์ป์ ๊ฐ์ธ ๋ชฉ์ ๋ ธ๋ ID๋ก ๊ทธ๋ฃนํํจ
- ์ถ๋ ฅ ์ ๋ณด๋ฅผ ๋ค์ <ํค, ๊ฐ> ์์์์ผ๋ก ํํ -> ๋งต ํจ์์์๋ ๋ ธ๋ ์ ์ ์ฐจ์ ๊ณผ์ ์ ๊ทธ๋๋ก ๋ฐ๋ณตํจ
- <ํค, ๊ฐ> ์์์์์ ์ป์ ๊ฐ์ธ 'ํด๋น ๋ ธ๋ ์ ์ ์ฐจ์'๋ก ๊ทธ๋ฃนํ ํจ
- ๋คํธ์ํฌ ๋ถ์ ๊ธฐ๋ฒ -> ๊ตฐ์งํ ์์(Clustering Coefficient)
- ๋คํธ์ํฌ์์ ๋ ธ๋๋ค(์ปดํจํฐ๋ค)์ด ๋ญ์น๋ ค๋ ์ ๋๊ฐ ์ผ๋ง๋ ๊ฐํ์ง ์ธก์ ํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ์ฌ๋์ด๋ ์ปดํจํฐ์ ๊ด๊ณ ์์ง๋๋ฅผ ํ๊ฐํ๋ ์ฒ๋๋ก ํ์ฉ๋จ
'software engineering > ๋น ๋ฐ์ดํฐ ์ฒ๋ฆฌ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[BigData] Spark ํ์ฉํ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ (0) | 2024.01.09 |
---|---|
[BigData] ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ (0) | 2024.01.09 |
[BigData] ๋น ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ์ (0) | 2024.01.09 |
[BigData] Spark ๋ฐ์ดํฐ ์ฒ๋ฆฌ, RDD (0) | 2024.01.06 |
[BigData] Spark(์คํํฌ) (0) | 2024.01.05 |