应用错误收集

crawler4j重新抓取一个不起作用的网站

时间：2013-10-14 08:23:21

标签： java crawler4j

我正在使用crawler4j库来抓取一些网站，但是当我调用两次这个过程时我遇到了问题。它只适用于第一次。第二次没有给出任何错误，但它没有做任何事情。

我认为图书馆正在保存抓取的网址，这就是我无法打电话的原因。

我在这里看到了一些信息但不是解决方案...

http://code.google.com/p/crawler4j/wiki/FrequentlyAskedQuestions

提前致谢，

冬眠。

1 个答案:

答案 0 :(得分：1)

您的抓取存储文件夹是第一次写入之后，此外，此文件无法自动删除（重新抓取），因为对文件的访问被拒绝，因此在第二次，程序检查了此文件并认为所有网址都已抓取。您应该编辑crawler4j以完全关闭对抓取存储文件夹的访问。按照这个： https://code.google.com/p/crawler4j/issues/detail?id=157

使用crawler4j抓取网站时获取链接的链接文本
crawler4j在不抓取整个网站的情况下抓取网址列表
crawler4j重新抓取一个不起作用的网站
Crawler4j不适用于https网址
使用TimerTask时，crawler4j无法正常工作
crawler4j无法识别页面上的所有链接
Crawler4j身份验证无法正常工作
如何使用crawler4J从网站获取所有图像
crawler4j如何提交发布请求？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？