software engineering/๋น…๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ

[BigData] ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„์„ ์œ„ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ณ€ํ˜•

jjingle 2024. 1. 9. 16:06

01. ๋ถ„์‚ฐ ์ฒ˜๋ฆฌ ๊ธฐ๋ฒ• ํ™œ์šฉ

  • ๊ธฐ์กด์˜ ๋ถ„์„ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๋ถ„์‚ฐ ์ฒ˜๋ฆฌ ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•˜์—ฌ ๋น…๋ฐ์ดํ„ฐ๋ฅผ ๊ณ ์†์ฒ˜๋ฆฌํ•ด์•ผํ•จ
  • ๊ธฐ์กด์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๋ถ„์‚ฐ ์ฒ˜๋ฆฌ ๊ธฐ๋ฒ•์— ๋งž๊ฒŒ ๋ณ€ํ˜•ํ•˜์—ฌ ๋ฐ์ดํ„ฐ ๋ถ„์„
  • MapReduce ๋ฐฉ์‹์˜ ๋ถ„์‚ฐ์ฒ˜๋ฆฌ ๊ธฐ๋ฒ•์„ ์ ์šฉํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ณ€ํ˜•์„ ํ•  ์ˆ˜ ์žˆ์Œ

 

02. ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ๋ฅผ ๋Œ€์ƒ์œผ๋กœ ํ•œ ๋ถ„์„

  • ์†Œ์…œ ๋„คํŠธ์›Œํฌ ํ†ต๊ณ„ ๋ฐฉ์•ˆ -> ๋งต๋ฆฌ๋“€์Šค
    • ๋งต ํ•จ์ˆ˜(Mapper)์™€ ๋ฆฌ๋“€์Šค(Reducer) ํ•จ์ˆ˜์˜ ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์€ ๋ชจ๋‘ <ํ‚ค, ๊ฐ’> ์ˆœ์„œ์Œ์œผ๋กœ ์ •์˜ํ•จ
    • employee.txt. ๋ฐ์ดํ„ฐ ํŒŒ์ผ์—์„œ FIRST๋ณ„๋กœ ๋นˆ๋„์ˆ˜๊ฐ€ ์–ผ๋งˆ์ธ์ง€ ์ธก์ •ํ•˜๋Š” ๋งต๋ฆฌ๋“€์Šค๋ฅผ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ํ•˜๊ณ ์ž ํ•จ
  • ์†Œ์…œ ๋„คํŠธ์›Œํฌ ํ†ต๊ณ„ ๋ฐฉ์•ˆ
    1. ์› ๋ฐ์ดํ„ฐ๋ฅผ ์—์ง€๋กœ๋งŒ ํ‘œํ˜„
    2. ๊ฐ ๋งต ํ•จ์ˆ˜์—์„œ๋Š” ๋‚˜๋ˆ„์–ด์ง„ ์—์ง€์˜ <ํ‚ค, ๊ฐ’> ์ˆœ์„œ์Œ์—์„œ ์–ป์€ ๊ฐ’์ธ ๋ชฉ์  ๋…ธ๋“œ ID๋กœ ๊ทธ๋ฃนํ•‘ํ•จ
    3. ์ถœ๋ ฅ ์ •๋ณด๋ฅผ ๋‹ค์‹œ <ํ‚ค, ๊ฐ’> ์ˆœ์„œ์Œ์œผ๋กœ ํ‘œํ˜„ -> ๋งต ํ•จ์ˆ˜์—์„œ๋Š” ๋…ธ๋“œ ์ „์ž… ์ฐจ์ˆ˜ ๊ณผ์ •์„ ๊ทธ๋Œ€๋กœ ๋ฐ˜๋ณตํ•จ
    4. <ํ‚ค, ๊ฐ’> ์ˆœ์„œ์Œ์—์„œ ์–ป์€ ๊ฐ“์ธ 'ํ•ด๋‹น ๋…ธ๋“œ ์ „์ž… ์ฐจ์ˆ˜'๋กœ ๊ทธ๋ฃนํ•‘ ํ•จ
  • ๋„คํŠธ์›Œํฌ ๋ถ„์„ ๊ธฐ๋ฒ• -> ๊ตฐ์ง‘ํ™” ์ƒ์ˆ˜(Clustering Coefficient)
    • ๋„คํŠธ์›Œํฌ์—์„œ ๋…ธ๋“œ๋“ค(์ปดํ“จํ„ฐ๋“ค)์ด ๋ญ‰์น˜๋ ค๋Š” ์ •๋„๊ฐ€ ์–ผ๋งˆ๋‚˜ ๊ฐ•ํ•œ์ง€ ์ธก์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, ์‚ฌ๋žŒ์ด๋‚˜ ์ปดํ“จํ„ฐ์˜ ๊ด€๊ณ„ ์‘์ง‘๋„๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์ฒ™๋„๋กœ ํ™œ์šฉ๋จ