Question

我主要遵循this page上的指南。我安装了Nutch 2.3，Cassandra 2.0和solr 4.10.3。设置进展顺利。但是当我执行以下命令时。没有提取网址。

./bin/crawl urls/seed.txt TestCrawl http://localhost:8983/solr/ 2

以下是我的设置。

的nutch-site.xml中

http://ideone.com/H8MPcl

正则表达式-urlfilter.txt

+^http://([a-z0-9]*\.)*nutch.apache.org/

hadoop.log

http://ideone.com/LnpAw4

我没有在日志文件中看到任何错误。我真的迷路了。任何帮助，将不胜感激。谢谢！

Answer 1

您必须在regex-urlfilter.txt中为您的网站添加要抓取的正则表达式，以选择您在nutch-site.xml中添加的链接。

现在它只会抓取＆＃34; nutch.apache.org＆＃34;

尝试添加以下行：

+^http://([a-z0-9]*\.)*ideone.com/

尝试在调试级别设置nutch日志，并在执行crawl命令时获取日志。

它将清楚地显示您无法抓取并为网站编制索引的原因。

此致

Jayesh Bhoyar

Answer 2

我最近遇到了类似的问题。我想你可以尝试以下步骤来找出问题。

1进行一些测试以确保数据库正常运行。

2您可以逐步调用nutch并查看日志更改以及更改DB内容（尤其是新网址），而不是批量运行抓取。

3关闭solr并专注于nutch和DB。