如果xml数据在文件中可用,则在下面的链接中可用的解决方案, https://github.com/databricks/spark-xml
下面的代码通过加载物理文件将xml转换为DataSet ..
Dataset<Row> df = sqlContext.read().format("com.databricks.spark.xml")
.option("rowTag", "book")
.load("file:///C:/books.xml");
但是如果JavaRdd中的xml数据可用,那么如何转换成 数据集?
答案 0 :(得分:0)
此Question的已接受答案应该会对您有所帮助。根据您使用的spark版本,使用适当的解决方案。代码片段在scala中,将其转换为java不应该是一个很大的变化。