将javaRDD保存为XML文件

时间:2017-09-01 10:19:20

标签: java xml apache-spark text-files

Apache Spark中有没有办法将java RDD文本保存为XML文件?

我目前所做的是使用 saveAsTextFile 方法将RDD保存为纯文本文件,然后将其转换为XML。 我有兴趣找到一种从RDD直接创建XML文件的方法。

任何提示,想法或指南都将不胜感激。

1 个答案:

答案 0 :(得分:1)

您可以参考databricks xml库来读取和写入xml数据。从数据推断模式:

import org.apache.spark.sql.SQLContext

SQLContext sqlContext = new SQLContext(sc);
DataFrame df = sqlContext.read()
    .format("com.databricks.spark.xml")
    .option("rowTag", "book")
    .load("books.xml");

df.select("author", "_id").write()
    .format("com.databricks.spark.xml")
    .option("rootTag", "books")
    .option("rowTag", "book")
    .save("newbooks.xml");