Question

我想阅读带标题的RDD。我在这里发现了类似的问题，但它并不适合我。 How do I skip a header from CSV files in Spark?

rdd.mapPartitionsWithIndex { (idx, iter) => if (idx == 0) iter.drop(1)

else iter}

所以我试过

def f(idx, iter): 
    if idx==0:
        iter.drop(1)
    else:
        yield list(iterator)
rdd2 = rdd.mapPartitionsWithIndex(f)

但它说的是AttributeError：＆＃39; generator＆＃39;对象没有属性＆＃39; drop＆＃39;

任何帮助？

Answer 1

尝试这样的事情：

def f(idx, iter):
    output=[]
    for sublist in iter:
        output.append(sublist)
    if idx>0:
        return(output)
    else:
        return(output[1:])

RDD跳过标题 - Pyspark

1 个答案: