RDD跳过标题 - Pyspark

时间:2017-10-31 09:05:45

标签: pyspark rdd

我想阅读带标题的RDD。我在这里发现了类似的问题,但它并不适合我。 How do I skip a header from CSV files in Spark?

rdd.mapPartitionsWithIndex { (idx, iter) => if (idx == 0) iter.drop(1)

else iter}

所以我试过

def f(idx, iter): 
    if idx==0:
        iter.drop(1)
    else:
        yield list(iterator)
rdd2 = rdd.mapPartitionsWithIndex(f)

但它说的是AttributeError:' generator'对象没有属性' drop'

任何帮助?

1 个答案:

答案 0 :(得分:0)

尝试这样的事情:

def f(idx, iter):
    output=[]
    for sublist in iter:
        output.append(sublist)
    if idx>0:
        return(output)
    else:
        return(output[1:])