应用错误收集

我读取了一个csv文件，该文件的尾部如下所示。这是一个宽表，大约有50列，因此我没有列出所有内容。行以H开头是页眉，最后一行以T开头是页脚。我试图从最后一行2中获取数字，即行数。检查行数后，我要删除最后一行（读取数据框时标题行已删除）。

有没有一种方法可以获取编号并删除最后一行，而无需将数据帧转换回RDD？我在这里看到了这个问题，但想知道如果没有monotonically_increasing_id How to select last row and also how to access PySpark dataframe by index?是否可以解决这个问题，非常感谢您的帮助。

编辑：Zipwithindex是用于rdd的，不是dataframe吗？我希望不必将其转换为RDD，然后再次返回

H~headerString~201908~stringE
D~stringA~stringB~stringC
D~stringAA~stringBB~stringCC
T~2~stringD~footerString

如何从Pyspark数据框中获取最后一行数据，然后将其删除

0 个答案: