如何删除Pyspark中的缺失值

时间:2017-03-08 23:23:03

标签: apache-spark pyspark spark-dataframe

我正在使用此示例数据,其中包含不同列中的缺失值,我想删除包含缺失值的所有行。

enter image description here

数据描述是:

enter image description here

我在网上搜索过,看起来像只适用于数据帧。但是当我创建一个数据帧时,我收到了一条错误消息 enter image description here

auto_DF_prep = auto_RDD.map(lambda e: Row(mpg = float(e[0]), cylinders = int(e[1]), displacement = float(e[2]), horsepower = float(e[3]), weight = float(e[4]), acceleration = float(e[5]), year = int(e[6]), origin = int(e[7]), name = e[8]))

我想这是因为NA,我无法创建数据框。我该怎么办?提前谢谢!

2 个答案:

答案 0 :(得分:1)

假设autoDataFrame

auto.na.drop()

参考:DataFrame.dropna()

答案 1 :(得分:0)

csv文件中的

NA等于str('NA'),不代表非数字值。

空值在csv上使用空字符串