使用spark数据帧生成包含唯一字段和XML组合的CSV文件

时间:2017-01-04 12:54:35

标签: scala apache-spark spark-dataframe

我正在使用com.databricks.spark.xml将XML读入spark Dataframe并尝试生成csv文件作为输出。

我的输入如下

C:\Program Files

我的输出应该是一个csv文件,其中包含id和剩余的整个XML标记(如

)的组合
<id>1234</id>
<dtl>
    <name>harish</name>
    <age>21</age>
    <class>II</class> 
</dtl>

有没有办法以上述格式实现输出。

非常感谢您的帮助。

1 个答案:

答案 0 :(得分:0)

  1. 创建一个普通的RDD,使用sc.textFile()将xml作为文本文件加载而不进行解析。
  2. 在regex / xpath的帮助下手动提取id,并尝试使用从标记开头到标记结尾的字符串切片对RDD字符串进行切片。
  3. 一旦完成,您将把数据放入地图中,如(id,“xml”)。
  4. 我希望这个战术解决方案能帮到你......