标签: java jsoup
我想加载一个用于抓取目的的网站代码。
该网站充满了不相关的图片和各种网站(如Facebook)的各种连接。这显然会增加加载时间。
我真的只想阅读页面内容,而不是所有其他不必要的内容。有没有办法禁用外部资源加载?
我可以提供代码,但它中包含Jsoup.connect的单行(原因很明显)。
Jsoup.connect
答案 0 :(得分:1)
在使用Jsoup加载页面之前,您无法过滤(删除)部分页面 Jsoup只会加载HTML,所以它不会加载图片或Javascript。在加载页面之前,您可以验证您是否获得了正确的内容 - 许多站点包含多个HTML文件,因此请打开浏览器的开发人员工具,访问该站点,查看获取该站点时获得的文件并检查每个文件。他们来决定你是否需要它 这是我浏览SO时得到的结果:
正如您所看到的 - 它有14个文件,但很容易识别哪个是HTML,然后查看它是否有任何有趣的内容。