如何设置nutch来提取种子文件中仅存在的URL的内容

时间:2016-04-17 20:35:28

标签: apache web-crawler hbase nutch

我正在使用nutch 2.3,我试图获取seed.txt文件中存在的一些网址的html内容,我将这些文件传递给nutch进入HBase。

所以问题如下---

首次抓取: 一切运行正常,我将数据输入HBase,url作为行键。

第二轮: 当我第二次用不同的网址运行抓取时,我看到有很多提取作业的网址正在运行,而我的种子文件中只有一个网址。

所以我的问题是如何确保nutch 抓取并获取seed.txt中存在的url的html内容,而不是urls html内容seed.txt中出现的out链接< / p>

2 个答案:

答案 0 :(得分:1)

我认为您只想获取种子文件中提供的域。对于那个更新nutch-site.xml如下

  <property>
   <name>db.ignore.external.links</name>
   <value>true</value>
  </property>

答案 1 :(得分:0)

您可以将抓取命令的迭代保持为&#34; 1&#34;然后nutch将只抓取seed.txt文件中的url。

e.g。

bin/crawl -i -D solr.server.url=<solrUrl> <seed-dir> <crawl-dir> 1

此外,您可以通过配置conf目录中的 regex-urlfilter.txt 来限制外部链接。

#accept anything else
+http://doamin.com