Nutch只获取种子文件中存在的URL

时间:2016-07-13 17:07:29

标签: web-crawler nutch information-retrieval

我正在尝试使用Apache Nutch 1.11抓取一些网址。 我的seeds.txt文件中有7个网址,我运行命令:

bin crawl -i urls crawl 22

我的问题是,在深度为22的情况下,我希望它可以获取相当多的页面。但今天,它所做的就是获取我seeds.txt文件中存在的完全相同的URL,仅此而已。听起来很奇怪,昨天完全相同的文件和属性最终获取了313个URL。从昨天起我没有改变任何东西。谁知道发生了什么?

唯一有变化的是,昨天我正在使用另一台电脑。但是因为我在远程计算机上运行crawl命令,所以我认为它与它没有任何关系。是吗?

1 个答案:

答案 0 :(得分:1)

使用readdb命令生成爬网转储,并检查种子的nextFetchDate,或尝试使用新的crawldb和segment dir进行新的爬网以查看发生的情况。

日志显示有趣吗?是否实际获取了种子URL,如果是,您如何知道它们是什么?

种子的内容是否可能产生与前一天不同的网址?

fetcher.max.crawl.delay 与调度无关,但与robots.txt文件设置的值如此之大以至于不切实际时的行为有关。

您所使用的配置是

<property>
      <name>db.fetch.interval.default</name>
      <value>2592000</value>
      <description>The default number of seconds between re-fetches of a page (30 days).
      </description>
    </property>

即一个月后重新获取。同样,crawldb转储将为您提供有关您的URL发生的所有详细信息