RDD(Resilient Distributed Dataset) ?
์ธ๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ฐ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๋ฐฉ์์ ํ๊ธฐ ์ํ ๋ฐ์ดํฐ ๋ชจ๋ธ
์ต์ด์ Disk์์ ๋ฐ์ดํฐ๋ฅผ ์ฝ์ด์จ ๋ค, ๋ฐ์ดํฐ์ ๋ํ ์ฌ๋ฌ ๋ฒ์ ๋ฉ๋ชจ๋ฆฌ์์ ์ฐ์ฐ(operation)์ ์ํํ๋๋ก ์ฐ์ฐ ํจ์ ์ ๊ณต
RDD ํน์ฑ
- In-memory Computation
- RDD์์ ์ ๊ณตํ๋ operation์ ์ฐ์ฐ์ ์ค๊ฐ ๊ฒฐ๊ณผ๋ฅผ ๋์คํฌ์ ์ ์ฅํ์ง ์๊ณ , ๋ฉ๋ชจ๋ฆฌ์์ ์์ฃผ์ํด
- Transformations : RDD์์ ๋ค๋ฅธ RDD๋ฅผ ๋ง๋๋ ๋ณํ ์ฐ์ฐ
- Actions : RDD์ ์ต์ข ์ฐ์ฐ์ผ๋ก RDD์์ RDD๊ฐ ์๋ data๋ก ์ ์ฅ
- Immutable
- RDD๋ ํ ๋ฒ ๋ง๋ค์ด์ง๋ฉด ๋ด์ฉ ๋ณํ์ด ํ์ฉ๋์ง ์์
- Lineage
- RDD์ transformation์ผ๋ก ๋ฐ์ํ๋ ๋ชจ๋ RDD๋ lineage์ ๊ธฐ๋ก๋์ด RDD ์ด๋ ฅ์ด ์ ์ฅ๋จ
- ๋ฉ๋ชจ๋ฆฌ ์ฐ์ฐ์ ํน์ฑ์ ์ฐ์ฐ ๊ณผ์ ์ค ๋ฐ์ํ๋ fault๋ก ์ธํด ์ฐ์ฐ ๊ฒฐ๊ณผ๊ฐ ์ ์ค๋๋ ๊ฒ์ ๋ฐฉ์งํจ
- ์ฐ์ฐ ์ค fault๊ฐ ๋ฐ์ํ๋ฉด ์ ์ฅํด๋์ lineage๋ฅผ ๋ณต๊ตฌํ์ฌ ์ฐ์ฐ์ ๊ณ์์ ์ผ๋ก ์ด์ด๋๊ฐ
- lineage๋ spark driver์ ์ ์ฅํจ
- Lazy-Execution
- RDD๋ action์ด ์ํ๋๊ธฐ ์ ๊น์ง ์ค์ ๋ก ์ฐ์ฐ์ ์ํํ์ง ์๋ค๊ฐ action operation์ ๋ง๋๋ฉด ์ค์ ์ฐ์ฐ์ ์ํ
- RDD lineage๋ฅผ ํ์ธํ์ฌ ์ ์ฒด ์ฐ์ฐ์ ๋ฏธ๋ฆฌ ๊ณ ๋ คํ ํ ์ต์ ํ๋ ์์ ๋ถ์ฐ์ด ๊ฐ๋ฅ
'software engineering > ๋น ๋ฐ์ดํฐ ์ฒ๋ฆฌ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[BigData] ๋น ๋ฐ์ดํฐ ๋ถ์์ ์ํ ์๊ณ ๋ฆฌ์ฆ ๋ณํ (0) | 2024.01.09 |
---|---|
[BigData] ๋น ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ์ (0) | 2024.01.09 |
[BigData] Spark(์คํํฌ) (0) | 2024.01.05 |
[BigData] MapReduce(๋งต๋ฆฌ๋์ค) ํ๋ก๊ทธ๋๋ฐ ๋ชจ๋ธ (1) | 2024.01.05 |
[BigData] Hadoop ํ๋ก (1) | 2024.01.05 |