我读取了一个csv文件,该文件的尾部如下所示。这是一个宽表,大约有50列,因此我没有列出所有内容。行以H开头是页眉,最后一行以T开头是页脚。我试图从最后一行2
中获取数字,即行数。检查行数后,我要删除最后一行(读取数据框时标题行已删除)。
有没有一种方法可以获取编号并删除最后一行,而无需将数据帧转换回RDD?我在这里看到了这个问题,但想知道如果没有monotonically_increasing_id
How to select last row and also how to access PySpark dataframe by index?是否可以解决这个问题,非常感谢您的帮助。
编辑:Zipwithindex是用于rdd的,不是dataframe吗?我希望不必将其转换为RDD,然后再次返回
H~headerString~201908~stringE
D~stringA~stringB~stringC
D~stringAA~stringBB~stringCC
T~2~stringD~footerString