Jsoup不会给我一份我要求的完整清单

时间:2013-07-29 19:26:00

标签: java list jsoup

我使用jsoup来解析HTML页面,在使用doc.select("tr")时,它应该返回一个包含所有<tr>元素的列表。当我调查该列表的大小时,它会告诉我242.虽然使用Chrome通过简单搜索对源进行双重检查时,它会获得264次点击。

这使我的代码中断。似乎jsoup几乎不能很好地处理很多元素。

我正在解析一个包含表格的页面,262 * 88个单元格和几乎同样多的辅助标记。这就是为什么jsoup没有列表中的对象的原因?或者你为什么认为我有这个问题?

1 个答案:

答案 0 :(得分:0)

网站可能存在差异。如果您有桌面浏览器,通常会获得不同的视图,例如移动设备。

您可以尝试使用jsoup:

  1. 设置浏览器的用户代理
  2. 打印已解析的文档(System.out.println(doc))并检查是否包含所有标记
  3. 使用其他浏览器检查网站
  4. 检查是否没有创建额外html的javascript(或类似)(jsoup无法处理)