RDD 1

[BigData] Spark ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ, RDD

RDD(Resilient Distributed Dataset) ? ์ธ๋ฉ”๋ชจ๋ฆฌ ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๋ฐฉ์‹์„ ํ•˜๊ธฐ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ๋ชจ๋ธ ์ตœ์ดˆ์— Disk์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ฝ์–ด์˜จ ๋’ค, ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์—ฌ๋Ÿฌ ๋ฒˆ์˜ ๋ฉ”๋ชจ๋ฆฌ์—์„œ ์—ฐ์‚ฐ(operation)์„ ์ˆ˜ํ–‰ํ•˜๋„๋ก ์—ฐ์‚ฐ ํ•จ์ˆ˜ ์ œ๊ณต RDD ํŠน์„ฑ In-memory Computation RDD์—์„œ ์ œ๊ณตํ•˜๋Š” operation์€ ์—ฐ์‚ฐ์˜ ์ค‘๊ฐ„ ๊ฒฐ๊ณผ๋ฅผ ๋””์Šคํฌ์— ์ €์žฅํ•˜์ง€ ์•Š๊ณ , ๋ฉ”๋ชจ๋ฆฌ์ƒ์— ์ƒ์ฃผ์‹œํ‚ด Transformations : RDD์—์„œ ๋‹ค๋ฅธ RDD๋ฅผ ๋งŒ๋“œ๋Š” ๋ณ€ํ˜• ์—ฐ์‚ฐ Actions : RDD์˜ ์ตœ์ข… ์—ฐ์‚ฐ์œผ๋กœ RDD์—์„œ RDD๊ฐ€ ์•„๋‹Œ data๋กœ ์ €์žฅ Immutable RDD๋Š” ํ•œ ๋ฒˆ ๋งŒ๋“ค์–ด์ง€๋ฉด ๋‚ด์šฉ ๋ณ€ํ˜•์ด ํ—ˆ์šฉ๋˜์ง€ ์•Š์Œ Lineage RDD์˜ transformation์œผ๋กœ ๋ฐœ์ƒํ•˜๋Š” ๋ชจ๋“  RDD..