标签: web-crawler apache-storm stormcrawler
我不想垄断这个论坛,但是一开始有很多问题……
JSoup仅正确处理一部分在Web上找到的HTML页面(绝对少于50%)并在其中发现新的URL是否正常?这是我的种子文件正在发生的事情,令人沮丧。
还是我可以使用更好的解析器?
致谢
答案 0 :(得分:1)
检查 http.content.limit 的值。可能是由于文档被截断而导致部分结果。
编辑:也许尝试DebugParseFilter来查看JSoup生成的DOM是什么样的。就像塞巴斯蒂安建议的那样,可能与JS有关。