Question

使用spark 2.2和Java 1.8

我的文件夹包含许多xmls，一个XML文件代表一条记录。所以我想解析xmls并为所有行创建一个Spark数据集[1 XML = 1 record]。

输入 -

file1.xml

         <?xml version="1.0" encoding="UTF-8"?>
          <RECORD>
            <PROP NAME="product.url">
             <PVAL>url1</PVAL>
            </PROP>
           <PROP NAME="product.id">
             <PVAL>123</PVAL>
           </PROP>
           <PROP NAME="product.language">
             <PVAL>english</PVAL>
           </PROP>
          </RECORD>

file2.xml

           <?xml version="1.0" encoding="UTF-8"?>
           <RECORD>
             <PROP NAME="product.url">
               <PVAL>url1</PVAL>
             </PROP>
             <PROP NAME="product.id">
               <PVAL>456</PVAL>
             </PROP>
             <PROP NAME="product.language">
               <PVAL>french</PVAL>
             </PROP>
           </RECORD>

预期数据集/数据帧： -

          product.url|product.id|product.language
          url1       | 123      | english  
          url2       | 456      | french

如何在Spark中解析XML

0 个答案: