如何在Spark Scala中读取文件时从文件中删除页脚

时间:2019-10-11 05:37:34

标签: scala apache-spark

我正在尝试在读取文件时从文件中删除页脚。是否有任何类似“ footer” =“ true”的选项。

1 个答案:

答案 0 :(得分:0)

最好的方法是使用Unix从文件中删除页脚

sed -i '$ d' foo.txt

如果你想做的话会产生火花 您可以先创建数据帧,然后将其转换为rdd并从DF中删除最后一行

让我们说df是文件读取后的数据帧

val cnt= df.count();
val rdd = dataframe.rdd  // convert df to rdd

//-- RDD without footer
val rddWithoutfoot = rdd.zipWithIndex().filter(x => x._2 < cnt )
                            .map (x => x._1)

// Dataframe without  footer
val dfWithoutfoot = spark.createDataFrame(rddWithoutFoot , df.schema)