ValueError:无法在Pyspark中将字符串转换为float

时间:2017-11-29 18:35:18

标签: apache-spark pyspark rdd

我的火花RDD看起来像这样

totalDistance=flightsParsed.map(lambda x:x.distance)
totalDistance.take(5)


[1979.0, 640.0, 1947.0, 1590.0, 874.0]

但是当我在它上面运行reduce时,我会得到如下所述的错误

totalDistance=flightsParsed.map(lambda x:x.distance).reduce(lambda y,z:y+z)
  

ValueError:无法将字符串转换为float:

请帮忙。

1 个答案:

答案 0 :(得分:0)

你有没有尝试过:

totalDistance=flightsParsed.map(lambda x: int(x.distance or 0))

totalDistance=flightsParsed.map(lambda x: float(x.distance or 0))

您在flightParsed中可能缺少或不一致的数据