JSoup只处理HTML页面的一小部分

时间:2019-07-09 18:33:07

标签: web-crawler apache-storm stormcrawler

我不想垄断这个论坛,但是一开始有很多问题……

JSoup仅正确处理一部分在Web上找到的HTML页面(绝对少于50%)并在其中发现新的URL是否正常?这是我的种子文件正在发生的事情,令人沮丧。

还是我可以使用更好的解析器?

致谢

1 个答案:

答案 0 :(得分:1)

检查 http.content.limit 的值。可能是由于文档被截断而导致部分结果。

编辑:也许尝试DebugParseFilter来查看JSoup生成的DOM是什么样的。就像塞巴斯蒂安建议的那样,可能与JS有关。