废弃网站数据基于XML加载HTML的位置

时间:2017-10-14 05:18:35

标签: java web-scraping jsoup

我正在尝试使用JAVA中的JSoup库从网页中删除数据。但是,这里的问题是我要废弃的数据是基于XML加载的,所以当我尝试从HTML中解析它时会显示

<div id="report-details-container"> 
   <!-- Container where HTML template will be loaded based on XML --> 
</div>

而不是完整的HTML,它只显示此评论。

如何废弃该数据,因为在inspect元素中我可以看到完整的HTML。

1 个答案:

答案 0 :(得分:0)

  

如何废弃该数据,因为在inspect元素中我可以看到完整的HTML。

您无法从HTML中删除原始XML。 XML不在HTML中。

然而:

  • 您可以对原始XML进行逆向工程...只要您知道从XML到HTML的转换规则(例如,您有XSLT文件),并且转换不会有损。

  • 如果使用(例如)XSLT的客户端执行从XML转换为HTML,那么您应该能够在应用转换之前捕获XML

  • 可能有办法让服务器发送XML而不是HTML。这取决于服务器本身。

但是,如果您所拥有的只是您向我们展示的HTML注释,那么您首先需要对加载XML的过程进行反向工程。它可能是通过一些客户端脚本完成的。