如何将RDD字符串(xml格式)转换为spark java中的数据帧?

时间:2017-01-04 06:00:31

标签: java apache-spark spark-streaming distributed-computing databricks

如果xml数据在文件中可用,则在下面的链接中可用的解决方案, https://github.com/databricks/spark-xml

下面的代码通过加载物理文件将xml转换为DataSet ..

Dataset<Row> df = sqlContext.read().format("com.databricks.spark.xml")
                                   .option("rowTag", "book")
                                   .load("file:///C:/books.xml");
  

但是如果JavaRdd中的xml数据可用,那么如何转换成   数据集?

1 个答案:

答案 0 :(得分:0)

Question的已接受答案应该会对您有所帮助。根据您使用的spark版本,使用适当的解决方案。代码片段在scala中,将其转换为java不应该是一个很大的变化。