java - Crawler4j无声停止

Crawler4j无声停止

时间：2014-05-01 18:17:31

标签： java web-crawler crawler4j

在我的应用程序中，我使用的是crawler4j。尽管应用程序很大，但我甚至使用此处给出的示例代码测试了代码：https://code.google.com/p/crawler4j/source/browse/src/test/java/edu/uci/ics/crawler4j/examples/basic/

问题是，它适用于大多数网站，但是当我将种子网址添加为：http://indianexpress.com/时，抓取工具会在我的日食中停止，而不会显示任何错误消息。我试了几次，但它没有用。我尝试打印网址和示例文本，如＆＃34;你好＆＃34;在shouldVisit方法中，但没有任何打印意味着它甚至没有到达那里。可能是什么问题？

编辑：

我想，crawler4j不适用于任何wordpress网站。例如，http://darcyconroy.net/或者您可以检查http://indianexpress.com/next（添加/旁边任何wordpress网站网址）。可能是什么原因？ http://indianexpress.com/robots.txt似乎没有写任何可疑的东西。

1 个答案:

答案 0 :(得分：1)

我认为，wordpress网站有一些插件来过滤除了robots.txt之外的其他用户。

我可以说服务器阻止了抓取。

启用记录器输出。

BasicConfigurator.configure（）;

将记录器设置为WARN级别。

Logger.getRootLogger（）setLevel（Level.WARN）;

使用以下代码将UserAgent字符串更改为Empty，它会抓取数据。

config.setUserAgentString（＆＃34;＆＃34）;

所以我认为它与crawler4j无关。 Crawler4j设置默认的Useragent字符串，我认为该字符串被封锁或其useragent字符串被此类插件列入黑名单。