Question

我正在使用nutch 2.3，我试图获取seed.txt文件中存在的一些网址的html内容，我将这些文件传递给nutch进入HBase。

所以问题如下---

首次抓取：一切运行正常，我将数据输入HBase，url作为行键。

第二轮：当我第二次用不同的网址运行抓取时，我看到有很多提取作业的网址正在运行，而我的种子文件中只有一个网址。

所以我的问题是如何确保nutch 仅抓取并获取seed.txt中存在的url的html内容，而不是urls html内容seed.txt中出现的out链接< / p>

Answer 1

我认为您只想获取种子文件中提供的域。对于那个更新nutch-site.xml如下

  <property>
   <name>db.ignore.external.links</name>
   <value>true</value>
  </property>

Answer 2

您可以将抓取命令的迭代保持为＆＃34; 1＆＃34;然后nutch将只抓取seed.txt文件中的url。

e.g。

bin/crawl -i -D solr.server.url=<solrUrl> <seed-dir> <crawl-dir> 1

此外，您可以通过配置conf目录中的 regex-urlfilter.txt 来限制外部链接。

#accept anything else
+http://doamin.com