我的火花RDD看起来像这样
totalDistance=flightsParsed.map(lambda x:x.distance)
totalDistance.take(5)
[1979.0, 640.0, 1947.0, 1590.0, 874.0]
但是当我在它上面运行reduce时,我会得到如下所述的错误
totalDistance=flightsParsed.map(lambda x:x.distance).reduce(lambda y,z:y+z)
ValueError:无法将字符串转换为float:
请帮忙。
答案 0 :(得分:0)
你有没有尝试过:
totalDistance=flightsParsed.map(lambda x: int(x.distance or 0))
或
totalDistance=flightsParsed.map(lambda x: float(x.distance or 0))
您在flightParsed中可能缺少或不一致的数据