我正在使用nutch 2.3,我试图获取seed.txt文件中存在的一些网址的html内容,我将这些文件传递给nutch进入HBase。
所以问题如下---
首次抓取: 一切运行正常,我将数据输入HBase,url作为行键。
第二轮: 当我第二次用不同的网址运行抓取时,我看到有很多提取作业的网址正在运行,而我的种子文件中只有一个网址。
所以我的问题是如何确保nutch 仅抓取并获取seed.txt中存在的url的html内容,而不是urls html内容seed.txt中出现的out链接< / p>
答案 0 :(得分:1)
我认为您只想获取种子文件中提供的域。对于那个更新nutch-site.xml如下
<property>
<name>db.ignore.external.links</name>
<value>true</value>
</property>
答案 1 :(得分:0)
您可以将抓取命令的迭代保持为&#34; 1&#34;然后nutch将只抓取seed.txt文件中的url。
e.g。
bin/crawl -i -D solr.server.url=<solrUrl> <seed-dir> <crawl-dir> 1
此外,您可以通过配置conf目录中的 regex-urlfilter.txt 来限制外部链接。
#accept anything else
+http://doamin.com