Spark ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์๋ฆฌ ๊ณ ์์ค API๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ์ฉ์๊ฐ API๋ฅผ ์ฌ์ฉํ๊ธฐ๋ง ํ๋ฉด ๋ถ์ฐ ํ๊ฒฝ์์ ์๋์ผ๋ก ๊ณ ์์ฒ๋ฆฌํ๋๋ก ์ค๊ณ๋จ Spark์ ๊ณ ์์ค API ํ์ฉํ ์ ์ฒ๋ฆฌ ๊ฒฐ์ธก์น ์ฒ๋ฆฌ ํน์ ์ด์ ๊ฒฐ์ธก์น ์ธ๊ธฐ : df.filter(df.col_name.isNull()).count() ๊ฒฐ์ธก์น๊ฐ ์๋ ํ ์ ๊ฑฐ : df.na.drop(how="any").show(truncate=False) ์ค๋ณต๋ฐ์ดํฐ ์ฒ๋ฆฌ ์ค๋ณต๋ฐ์ดํฐ ํ์ธ : df.show() ์ค๋ณต๋ฐ์ดํฐ ์ฒ๋ฆฌ : df.dropDuplicates(['id', 'name']).show() ๋ฐ์ดํฐ ์ ๊ทํ feature๊ฐ ํ๊ท 0, ํ์คํธ์ฐจ๊ฐ 1์ธ ๋ถํฌ๋ฅผ ๊ฐ๋๋ก ๋ฐ์ดํฐ๋ฅผ ์ ๊ทํ sScaler = StandardScaler().setInputCol("features") ..