将CSV文件加载到Hive表时如何跳过页脚/尾部记录

时间:2019-09-23 03:48:49

标签: scala apache-spark apache-spark-sql hiveql

文件是CSV格式,以逗号分隔。

存在用于提取CSV文件的框架。 相同文件的标题被跳过:

Df.Option(“header”, “true”)

但是预告片记录在同一个spark包中,我无法跳过相同的逻辑。

请帮助我们提取数据。

1 个答案:

答案 0 :(得分:0)

请检查此回复:

spark how to remove last line in a csv file

来自同一回复的副本:

val total = df.count();
val withoutFooter = df.zipWithIndex()
                        .filter(x => x._2 < total - 3)
                        .map (x => x._1)