将扩展名添加到Spark零件文件

时间:2018-12-14 00:43:47

标签: xml scala apache-spark databricks

我正在使用Spark / Scala读取xml文件的数据集,进行一些过滤并输出xml文件。当然spark输出part-00XX,但是我想要的是part-00XX.xml。原因是下游程序读取文件,并专门寻找.xml扩展名。

var writePath = new Path(baseWritePath, key) //baseWritePath here is an S3 bucket, but could be any base path.
dataframe.write.format("com.databricks.spark.xml").option("rootTag", "root").option("rowTag", "row").save(writePath)

我希望编写器中有一个选项可以保存扩展名,但是它似乎不存在。现在我在想最好的方法可能就是重命名所有文件,但是有没有一种好的hadoop fs方法来做到这一点?

我可以想到的直接方法是以某种方式获取目录中所有文件的列表,遍历该目录并重命名该文件。似乎有更好的方法来处理这么多文件,但是我似乎找不到使用Hadoop的好方法。

val fs = FileSystem.get(spark.sparkContext.hadoopConfiguration)
val files = fs.globStatus(new Path(writePath, "part*"))

files.foreach(file => fs.rename(file.getPath, new Path(writePath, file.getPath.getName + ".xml")))

以上只是给了我一个Task Not Serializable异常。

如果能为我指明正确的方向,我将不胜感激。谢谢。

0 个答案:

没有答案