应用错误收集

JSoup只处理HTML页面的一小部分

时间：2019-07-09 18:33:07

标签： web-crawler apache-storm stormcrawler

我不想垄断这个论坛，但是一开始有很多问题……

JSoup仅正确处理一部分在Web上找到的HTML页面（绝对少于50％）并在其中发现新的URL是否正常？这是我的种子文件正在发生的事情，令人沮丧。

还是我可以使用更好的解析器？

致谢

1 个答案:

答案 0 :(得分：1)

检查 http.content.limit 的值。可能是由于文档被截断而导致部分结果。

编辑：也许尝试DebugParseFilter来查看JSoup生成的DOM是什么样的。就像塞巴斯蒂安建议的那样，可能与JS有关。