XPath忽略结束标记

时间:2011-12-23 10:03:33

标签: java xml

我在xml文件中有以下行,我尝试使用XPath进行解析。 XML文件本身是通过使用PDFtoHTML转换器转换PDF文档获得的。如您所见,它尚未在此处添加结束标记。因此,当我尝试通过尝试捕获标记的textValue来尝试执行XPath时,它会抛出一个错误,说明应该跟一个结束标记。我如何在XPath中克服这个问题? Hovewer,当我在浏览器中打开文件时,一切都在浏览器中呈现。

<DIV style="position:absolute;top:222;left:143">
  <nobr>
    <span class="ft8">Dear Mr. AMIT KUMAR,
      <br>We are happy to enclose<br>31st March, 2011
    </span>
  </nobr>
</DIV>

由于 Abhishek S

1 个答案:

答案 0 :(得分:4)

您发布的内容不是XML。你无法通过XPath解决这个问题。

生成HTML后,您可以使用HTML Tidy将其转换为XML,或者您可以尝试使用将PDF转换为格式良好的XML的转换器。