如何以xml格式保存pyspark sql DataFrame

时间:2016-06-21 13:24:02

标签: xml python-2.7 pyspark spark-dataframe parquet

我以拼花格式存储了一个pyspark sql数据帧。现在我想将它保存为xml格式。我怎样才能做到这一点?直接在xml中保存pyspark sql数据帧或将镶木地板转换为xml的解决方案对我来说都很有用。提前致谢。

2 个答案:

答案 0 :(得分:1)

我还没有尝试过,但是这个软件包可能会有所帮助。 Data Bricks Spark-XML

这是Python的示例代码:

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

df = sqlContext.read.format('com.databricks.spark.xml').options(rowTag='book').load('books.xml')
df.select("author", "_id").write \
    .format('com.databricks.spark.xml') \
    .options(rowTag='book', rootTag='books') \
    .save('newbooks.xml')

答案 1 :(得分:-1)

您可以使用xml分隔符将每行映射到字符串,然后另存为文本文件