Question

如果xml数据在文件中可用，则在下面的链接中可用的解决方案， https://github.com/databricks/spark-xml

下面的代码通过加载物理文件将xml转换为DataSet ..

Dataset<Row> df = sqlContext.read().format("com.databricks.spark.xml")
                                   .option("rowTag", "book")
                                   .load("file:///C:/books.xml");

但是如果JavaRdd中的xml数据可用，那么如何转换成数据集？

Answer 1

此Question的已接受答案应该会对您有所帮助。根据您使用的spark版本，使用适当的解决方案。代码片段在scala中，将其转换为java不应该是一个很大的变化。

如何将RDD字符串（xml格式）转换为spark java中的数据帧？

1 个答案: