我想阅读带标题的RDD。我在这里发现了类似的问题,但它并不适合我。 How do I skip a header from CSV files in Spark?
rdd.mapPartitionsWithIndex { (idx, iter) => if (idx == 0) iter.drop(1)
else iter}
所以我试过
def f(idx, iter):
if idx==0:
iter.drop(1)
else:
yield list(iterator)
rdd2 = rdd.mapPartitionsWithIndex(f)
但它说的是AttributeError:' generator'对象没有属性' drop'
任何帮助?
答案 0 :(得分:0)
尝试这样的事情:
def f(idx, iter):
output=[]
for sublist in iter:
output.append(sublist)
if idx>0:
return(output)
else:
return(output[1:])