Apache Spark中有没有办法将java RDD文本保存为XML文件?
我目前所做的是使用 saveAsTextFile 方法将RDD保存为纯文本文件,然后将其转换为XML。 我有兴趣找到一种从RDD直接创建XML文件的方法。
任何提示,想法或指南都将不胜感激。
答案 0 :(得分:1)
您可以参考databricks xml库来读取和写入xml数据。从数据推断模式:
import org.apache.spark.sql.SQLContext
SQLContext sqlContext = new SQLContext(sc);
DataFrame df = sqlContext.read()
.format("com.databricks.spark.xml")
.option("rowTag", "book")
.load("books.xml");
df.select("author", "_id").write()
.format("com.databricks.spark.xml")
.option("rootTag", "books")
.option("rowTag", "book")
.save("newbooks.xml");