在代码下面进行切换时,pyspark中的管道错误

时间:2017-08-31 04:58:11

标签: pyspark

from pyspark.sql import *
from pyspark import SQLContext
 sqc=SQLContext(sc)
 input=sc.textFile("file:///home/cloudera/Desktop/uber.txt")
 df=input.map(lambda x:x.split(","))
 df=sqc.createDataFrame(input.map(lambda x:x.split(","))
 input.map(lambda r:Row(basedid=r[0],dt=r[1],nveh=int(r[2]),ncus=int(r[3])))))

当我执行上面的代码时,我得到了以下错误。

  

TypeError:' PipelinedRDD'对象不可调用

1 个答案:

答案 0 :(得分:0)

代码的最后一行应该是

input.map(lambda r: r.split(",")).map(lambda r:Row(basedid=r[0],dt=r[1],nveh=int(r[2]),ncus=int(r[3])))

并删除最后一行末尾的额外括号。