apache nutch不抓网站

时间:2012-08-07 09:25:25

标签: solr web-crawler nutch

我已经为网络抓取安装了apache nutch。我想抓取一个包含以下robots.txt的网站:

User-Agent: *
Disallow: /

有没有办法用apache nutch抓取这个网站?

2 个答案:

答案 0 :(得分:2)

您可以在nutch-site.xml中将属性“Protocol.CHECK_ROBOTS”设置为false以忽略robots.txt。

答案 1 :(得分:2)

在nutch-site.xml中,将protocol.plugin.check.robots设置为false

OR

您可以注释掉机器人检查完成的代码。 在Fetcher.java中,第605-614行正在进行检查。评论整个块

      if (!rules.isAllowed(fit.u)) {
        // unblock
        fetchQueues.finishFetchItem(fit, true);
        if (LOG.isDebugEnabled()) {
          LOG.debug("Denied by robots.txt: " + fit.url);
        }
        output(fit.url, fit.datum, null, ProtocolStatus.STATUS_ROBOTS_DENIED, CrawlDatum.STATUS_FETCH_GONE);
        reporter.incrCounter("FetcherStatus", "robots_denied", 1);
        continue;
      }