应用错误收集

如何查看Spark数据框中的NaN数量？

时间：2017-05-28 00:28:24

标签： apache-spark spark-dataframe apache-spark-ml

我正在使用Spark数据帧来处理数据，我有兴趣了解我的数据集中有多少个NaN。我正在寻找类似于pandas数据帧的东西：

>>> dataset.isnull().sum()
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

这有助于决定是否遗漏缺失的值或只是删除它们。

0 个答案:

没有答案