文件是CSV格式,以逗号分隔。
存在用于提取CSV文件的框架。 相同文件的标题被跳过:
Df.Option(“header”, “true”)
但是预告片记录在同一个spark包中,我无法跳过相同的逻辑。
请帮助我们提取数据。
答案 0 :(得分:0)
请检查此回复:
spark how to remove last line in a csv file
来自同一回复的副本:
val total = df.count();
val withoutFooter = df.zipWithIndex()
.filter(x => x._2 < total - 3)
.map (x => x._1)