Spark ?
UC Berkely AMPLab์์ ๊ฐ๋ฐํ ์คํ์์ค ํ๋ก์ ํธ
- Disk ๊ธฐ๋ฐ์ Hadoop ์ฒ๋ฆฌ ๋ฐฉ์์ ๊ฐ์ ํ์ฌ ์ฒ๋ฆฌ ์๋๋ฅผ ๋์
- ์ธ๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ฐ์ ๋์ฉ๋ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ฐ ์ฒ๋ฆฌํ ์ ์๋ ๋์ฉ๋ ๊ณ ์ ์ฒ๋ฆฌ ์์ง
- RDD ๋ฐฉ์์ ์ธ๋ฉ๋ชจ๋ฆฌํ ์๋ฃ ๊ตฌ์กฐ ์ ๊ณต
- ๋ฐฐ์น ์ฒ๋ฆฌ ๋ฐ ์ค์๊ฐ ์ฒ๋ฆฌ ๋ชจ๋ ์ง์
- SQL ๋ฐฉ์์ ์ ํ ๋ฐ์ดํฐ๋ฟ ์๋๋ผ ๋น์ ํ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๋ชจ๋ ์ง์
Spark ์ค๊ณ ์ฒ ํ
- ๊ณ ์์ฒ๋ฆฌ
- Hadoop์์์ ๋์คํฌ I/O๋ก ๋ฐ์ํ ์ ์๋ ์ฑ๋ฅ ์ง์ฐ์ ๋ฌธ์ ์ ์ ๊ฐ์ ํด ์ฒ๋ฆฌ ์๋๋ฅผ ๋ํญ ๋์
- ํตํฉ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์์ง
- SQL ๋ฐ์ดํฐ, ์คํธ๋ฆผ, ๋จธ์ ๋ฌ๋, ๊ทธ๋ํ ๋ฑ์ ๋ฐ์ดํฐ๋ฅผ ํ๋์ ํตํฉ๋ ํ๋ ์์ํฌ์์ ์ฒ๋ฆฌํ ์ ์๋๋ก ์ค๊ณ
- ๊ธฐ์กด ๋ณต์กํ ํ๋ ์์ํฌ ์ฐ๋ ๋ฌธ์ ๊ฐ์
- ๊ฒฐํจ ํ์ฉ์ฑ
- ๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ฐ์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ฅผ ์ํํ๋๋ผ๋ ๊ฒฐํจ ๋ฐ์ ์ ๋ฐ์ดํฐ๊ฐ ๋ณต๊ตฌ ๊ฐ๋ฅํ๋๋ก ์ค๊ณ
- ๋ฐ์ดํฐ์ ๋ณํ ์ด๋ ฅ์ด ์ถ์ ๋๋๋ก ์ค๊ณํจ์ผ๋ก์จ, ์ฒ๋ฆฌ ๋ฐ์ดํฐ์ ๋ณต๊ตฌ๊ฐ ๊ฐ๋ฅ
Spark ๊ตฌ์กฐ
Master/Worker ๊ตฌ์กฐ์ ๋ถ์ฐ ์์คํ
- Spark application (์คํํฌ์์ ์ํํ ์ ์ฒด ์์
์ผ๋ก Job์ด๋ผ๊ณ ๋ถ๋ฆ)
- Driver
- ์ ํ๋ฆฌ์ผ์ด์ ์ ๋ผ์ดํ์ฌ์ดํด์ ๊ด๋ฆฌํ๊ธฐ ์ํด Spark Context๋ฅผ ์์ฑ
- Job์ Task๋ก ๋ณํํ์ฌ Task ๋ฅผ ํ์ ๋ ธ๋์ ํ ๋น
- Executor
- ๊ฐ ๋ ธ๋์์ ํ ๋น ๋ฐ์ ์์ ์ Task ๋จ์๋ก ์ํํ๊ณ ๊ฒฐ๊ณผ๋ฅผ Driver์ ์ ์ก
- Task
- ๋๋์ด์ง ์์ ๋จ์
- ์ค์ ๋ก ์์ ์ ์ํ
- Driver
- Cluster Manager
- YARN : ํ๋ก ํด๋ฌ์คํฐ ๋งค๋์
- MESOS : ๋์ ๋ฆฌ์์ค ๊ณต์ ๋ฐ ๊ฒฉ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ๋ฌ ์์ค์ ์ํฌ๋ก๋๋ฅผ ์ฒ๋ฆฌ
- StandardAlone : Spark ์์ฒด์ ์ผ๋ก ์ ๊ณตํ๋ ํด๋ฌ์คํฐ ๋งค๋์
Spark Application ์ํ ๊ณผ์
- ์ฌ์ฉ์๊ฐ Spark Application์ ์ ์ถ(spark-submit)
- Spark Driver๊ฐ main()์ ์คํํ๋ฉฐ, Spark Context๋ฅผ ์์ฑ
- Spark Context๊ฐ Cluster Manager์ ์ฐ๊ฒฐ
- Spark Driver๊ฐ ์ ์ ๊ฐ ์์ฒญํ ๋ฆฌ์์ค๋ฅผ Cluster Manager๋ก ์์ฒญ
'software engineering > ๋น ๋ฐ์ดํฐ ์ฒ๋ฆฌ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[BigData] ๋น ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ์ (0) | 2024.01.09 |
---|---|
[BigData] Spark ๋ฐ์ดํฐ ์ฒ๋ฆฌ, RDD (0) | 2024.01.06 |
[BigData] MapReduce(๋งต๋ฆฌ๋์ค) ํ๋ก๊ทธ๋๋ฐ ๋ชจ๋ธ (1) | 2024.01.05 |
[BigData] Hadoop ํ๋ก (1) | 2024.01.05 |
[BigData] HDFS (Hadoop File System) (1) | 2024.01.03 |