我以拼花格式存储了一个pyspark sql数据帧。现在我想将它保存为xml格式。我怎样才能做到这一点?直接在xml中保存pyspark sql数据帧或将镶木地板转换为xml的解决方案对我来说都很有用。提前致谢。
答案 0 :(得分:1)
我还没有尝试过,但是这个软件包可能会有所帮助。 Data Bricks Spark-XML
这是Python的示例代码:
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
df = sqlContext.read.format('com.databricks.spark.xml').options(rowTag='book').load('books.xml')
df.select("author", "_id").write \
.format('com.databricks.spark.xml') \
.options(rowTag='book', rootTag='books') \
.save('newbooks.xml')
答案 1 :(得分:-1)
您可以使用xml分隔符将每行映射到字符串,然后另存为文本文件