使用spark 2.2和Java 1.8
我的文件夹包含许多xmls,一个XML文件代表一条记录。所以我想解析xmls并为所有行创建一个Spark数据集[1 XML = 1 record]。
输入 -
file1.xml
<?xml version="1.0" encoding="UTF-8"?>
<RECORD>
<PROP NAME="product.url">
<PVAL>url1</PVAL>
</PROP>
<PROP NAME="product.id">
<PVAL>123</PVAL>
</PROP>
<PROP NAME="product.language">
<PVAL>english</PVAL>
</PROP>
</RECORD>
file2.xml
<?xml version="1.0" encoding="UTF-8"?>
<RECORD>
<PROP NAME="product.url">
<PVAL>url1</PVAL>
</PROP>
<PROP NAME="product.id">
<PVAL>456</PVAL>
</PROP>
<PROP NAME="product.language">
<PVAL>french</PVAL>
</PROP>
</RECORD>
预期数据集/数据帧: -
product.url|product.id|product.language
url1 | 123 | english
url2 | 456 | french