查找和插入空值:Spark + Scala中用于数据预处理的任何包?

时间:2017-03-13 18:45:56

标签: scala apache-spark databricks

我对Spark和Scala完全陌生,尝试使用Databricks中的数据集。

我将csv文件作为数据框加载。现在,我希望看到每列中空值的百分比。稍后我想替换空值或删除列,具体取决于空值的百分比。

我认为R有一些能够分析空值的包(例如MICE包),但在Spark&斯卡拉我找不到类似的东西。

我一直试图通过" null"来过滤数据框。价值观,但这似乎不起作用。下面的代码只返回非null的小屋。交换== by!=没有帮助。

train.show()
val train = sqlContext.sql("SELECT * FROM titanic_test")
val filtered = train.filter("Cabin==null")
filtered.show()

有没有人知道一个可以帮助或知道如何修复上述问题的软件包,所以我可以手动过滤?

This image shows the data set before it was filtered

This image shows that the filtering is not working

0 个答案:

没有答案