Question

文件是CSV格式，以逗号分隔。

存在用于提取CSV文件的框架。相同文件的标题被跳过：

Df.Option(“header”, “true”)

但是预告片记录在同一个spark包中，我无法跳过相同的逻辑。

请帮助我们提取数据。

Answer 1

请检查此回复：

spark how to remove last line in a csv file

来自同一回复的副本：

val total = df.count();
val withoutFooter = df.zipWithIndex()
                        .filter(x => x._2 < total - 3)
                        .map (x => x._1)

将CSV文件加载到Hive表时如何跳过页脚/尾部记录

1 个答案: