我正在尝试使用Apache Nutch 1.11抓取一些网址。
我的seeds.txt
文件中有7个网址,我运行命令:
bin crawl -i urls crawl 22
我的问题是,在深度为22的情况下,我希望它可以获取相当多的页面。但今天,它所做的就是获取我seeds.txt
文件中存在的完全相同的URL,仅此而已。听起来很奇怪,昨天完全相同的文件和属性最终获取了313个URL。从昨天起我没有改变任何东西。谁知道发生了什么?
唯一有变化的是,昨天我正在使用另一台电脑。但是因为我在远程计算机上运行crawl命令,所以我认为它与它没有任何关系。是吗?
答案 0 :(得分:1)
使用readdb命令生成爬网转储,并检查种子的nextFetchDate,或尝试使用新的crawldb和segment dir进行新的爬网以查看发生的情况。
日志显示有趣吗?是否实际获取了种子URL,如果是,您如何知道它们是什么?
种子的内容是否可能产生与前一天不同的网址?
fetcher.max.crawl.delay 与调度无关,但与robots.txt文件设置的值如此之大以至于不切实际时的行为有关。
您所使用的配置是
<property>
<name>db.fetch.interval.default</name>
<value>2592000</value>
<description>The default number of seconds between re-fetches of a page (30 days).
</description>
</property>
即一个月后重新获取。同样,crawldb转储将为您提供有关您的URL发生的所有详细信息