我正在使用Spark数据帧来处理数据,我有兴趣了解我的数据集中有多少个NaN。我正在寻找类似于pandas数据帧的东西:
>>> dataset.isnull().sum()
PassengerId 0
Survived 0
Pclass 0
Name 0
Sex 0
Age 177
SibSp 0
Parch 0
Ticket 0
Fare 0
Cabin 687
Embarked 2
dtype: int64
这有助于决定是否遗漏缺失的值或只是删除它们。