如何在spark

时间:2018-06-18 14:14:24

标签: java scala apache-spark

我正在使用Spark版本 - 2.2和java 1.8

我想用java解析spark中的XML(嵌套)并从中创建一个Spark数据集。

我尝试使用databricks xml库,它没有给我预期的输出(嵌套标签不会被删除)。

以下是XML格式。

     <?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE record SYSTEM "dcr4.5.dtd">
<record type="content" name="ON_2014529152858875">
<item name="provinces">
<value>AL_</value>
</item>
<item name="img_zone">
<value>LOGOS</value>
</item>
<item name="language">
<value>en</value>
</item>
<item name="product_line">
<value>tv</value>
</item>
<item name="en_image_array">
<value/>
</item>
<item name="fixed_html">
<value/>
</item>
<item name="english">
<value>
<item name="product_type">
<value>abc</value>
</item>
<item name="product_info">
<value>
<item name="product_title">
<value>title1</value>
</item>
<item name="product_ID">
<value>Z123</value>
</item>
<item name="display_order">
<value/>
</item>
<item name="short_desc">
<value>This is tv. <br /> <a href="www.abc.org" target="_blank">www.abc.org</a> </value>
</item>
<item name="channel_long_desc">
<value/>
</item>
<item name="new_short_desc">
<value/>
</item>
<item name="new_long_desc">
<value/>
</item>
<item name="package_features">
<value/>
</item>
<item name="hd_programming">
<value/>
</item>
<item name="on_demand">
<value/>
</item>
<item name="most_popular"/>
<item name="channel_exclusive"/>
<item name="shows">
<value/>
</item>
<item name="short_desc2"/>
<item name="long_desc"/>
<item name="movie_clip">
<value>
<item name="browser_selection"/>
<item name="file_from_local">
<value/>
</item>
<item name="file_from_teamsite">
<value/>
</item>
</value>
</item>
<item name="movie_clip_source">
<value>
<item name="browser_selection"/>
<item name="file_from_local">
<value/>
</item>
<item name="file_from_teamsite">
<value/>
</item>
</value>
</item>
<item name="genres"/>
<item name="channel_include"/>
<item name="premium_channel"/>
</value>
</item>
<item name="product_images1">
<value>
<item name="browser_selection"/>
<item name="image_from_local">
<value/>
</item>
<item name="image_from_teamsite">
<value/>
</item>
</value>
</item>
<item name="new_product_images1">
<value>
<item name="browser_selection">
<value>server</value>
</item>
<item name="image_from_local">
<value/>
</item>
<item name="image_from_teamsite">
<value>path1.png</value>
</item>
</value>
</item>
<item name="product_images2">
<value>
<item name="browser_selection">
<value>server</value>
</item>
<item name="image_from_local">
<value/>
</item>
<item name="image_from_teamsite">
<value>path2.png</value>
</item>
</value>
</item>
<item name="product_images3">
<value>
<item name="browser_selection">
<value>server</value>
</item>
<item name="image_from_teamsite">
<value>path3.png</value>
</item>
</value>
</item>
</value>
</item>
<item name="publish_attributes">
<value>
<item name="message">
<value/>
</item>
<item name="unpublish"/>
</value>
</item>
</record>

如果我们找不到列的值,&#34; null&#34;是可以接受的。

提前很感激。谢谢。

0 个答案:

没有答案