Spark ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์๋ฆฌ
- ๊ณ ์์ค API๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ์ฉ์๊ฐ API๋ฅผ ์ฌ์ฉํ๊ธฐ๋ง ํ๋ฉด ๋ถ์ฐ ํ๊ฒฝ์์ ์๋์ผ๋ก ๊ณ ์์ฒ๋ฆฌํ๋๋ก ์ค๊ณ๋จ
Spark์ ๊ณ ์์ค API ํ์ฉํ ์ ์ฒ๋ฆฌ
- ๊ฒฐ์ธก์น ์ฒ๋ฆฌ
- ํน์ ์ด์ ๊ฒฐ์ธก์น ์ธ๊ธฐ : df.filter(df.col_name.isNull()).count()
- ๊ฒฐ์ธก์น๊ฐ ์๋ ํ ์ ๊ฑฐ : df.na.drop(how="any").show(truncate=False)
- ์ค๋ณต๋ฐ์ดํฐ ์ฒ๋ฆฌ
- ์ค๋ณต๋ฐ์ดํฐ ํ์ธ : df.show()
- ์ค๋ณต๋ฐ์ดํฐ ์ฒ๋ฆฌ : df.dropDuplicates(['id', 'name']).show()
- ๋ฐ์ดํฐ ์ ๊ทํ
- feature๊ฐ ํ๊ท 0, ํ์คํธ์ฐจ๊ฐ 1์ธ ๋ถํฌ๋ฅผ ๊ฐ๋๋ก ๋ฐ์ดํฐ๋ฅผ ์ ๊ทํ
- sScaler = StandardScaler().setInputCol("features")
- sScaler.fit(scaleDF).transform(scaleDF).show()
- feature๊ฐ ํ๊ท 0, ํ์คํธ์ฐจ๊ฐ 1์ธ ๋ถํฌ๋ฅผ ๊ฐ๋๋ก ๋ฐ์ดํฐ๋ฅผ ์ ๊ทํ
- Feature Engineering
- ์ฃผ์ฑ๋ถ ๋ถ์(PCA)๋ฅผ ํตํ Feature์ ์ฐจ์ ์ถ์
- pca = PCA().setInputCol("features").setK(2)
- pca.fit(scaleDF).transform(scaleDF).show(20, False)
- ์ฃผ์ฑ๋ถ ๋ถ์(PCA)๋ฅผ ํตํ Feature์ ์ฐจ์ ์ถ์
'software engineering > ๋น ๋ฐ์ดํฐ ์ฒ๋ฆฌ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[BigData] ํ๊ท (Regression) (0) | 2024.01.17 |
---|---|
[BigData] ๋์ฉ๋ ๋ถ๋ฅ (0) | 2024.01.10 |
[BigData] ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ (0) | 2024.01.09 |
[BigData] ๋น ๋ฐ์ดํฐ ๋ถ์์ ์ํ ์๊ณ ๋ฆฌ์ฆ ๋ณํ (0) | 2024.01.09 |
[BigData] ๋น ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ์ (0) | 2024.01.09 |