我对Spark和Scala完全陌生,尝试使用Databricks中的数据集。
我将csv文件作为数据框加载。现在,我希望看到每列中空值的百分比。稍后我想替换空值或删除列,具体取决于空值的百分比。
我认为R有一些能够分析空值的包(例如MICE包),但在Spark&斯卡拉我找不到类似的东西。
我一直试图通过" null"来过滤数据框。价值观,但这似乎不起作用。下面的代码只返回非null的小屋。交换== by!=没有帮助。
train.show()
val train = sqlContext.sql("SELECT * FROM titanic_test")
val filtered = train.filter("Cabin==null")
filtered.show()
有没有人知道一个可以帮助或知道如何修复上述问题的软件包,所以我可以手动过滤?