应用错误收集

我必须处理多个xml，下面是示例xml

<?xml version="1.0"?>
  <Root>
    <Row>
      <info>            
         <name>Mich</name>          
         <id>123</id>       
      </info>       
      <detail>          
        <type>ind</type>        
     </detail>
 </Row>
 ......

有时xml结构可以是，请注意下面的xml中只有一行

<Root>
  <Row>
   <detail>
    <type>invalid</type>
   </detail>
  </Row>
</Root>

将数据读入spark df后，我想过滤类型为无效的所有行。问题是，当存在一个只有一个Row元素的xml时，数据帧的架构被推断为Struct，而如果XML中存在多个Row元素，则将其推断为Struct数组如何处理这个???

如何过滤无效的XML

0 个答案: