使用Nutch 2.3,Cassandra 2.0和solr 4.10.3爬行返回0结果

时间:2015-02-11 04:22:53

标签: solr cassandra web-crawler nutch

我主要遵循this page上的指南。我安装了Nutch 2.3,Cassandra 2.0和solr 4.10.3。设置进展顺利。但是当我执行以下命令时。没有提取网址。

./bin/crawl urls/seed.txt TestCrawl http://localhost:8983/solr/ 2

以下是我的设置。

的nutch-site.xml中

http://ideone.com/H8MPcl

正则表达式-urlfilter.txt

+^http://([a-z0-9]*\.)*nutch.apache.org/

hadoop.log

http://ideone.com/LnpAw4

我没有在日志文件中看到任何错误。我真的迷路了。任何帮助,将不胜感激。谢谢!

2 个答案:

答案 0 :(得分:0)

您必须在regex-urlfilter.txt中为您的网站添加要抓取的正则表达式,以选择您在nutch-site.xml中添加的链接。

现在它只会抓取" nutch.apache.org"

尝试添加以下行:

+^http://([a-z0-9]*\.)*ideone.com/

尝试在调试级别设置nutch日志,并在执行crawl命令时获取日志。

它将清楚地显示您无法抓取并为网站编制索引的原因。

此致

Jayesh Bhoyar

http://technical-fundas.blogspot.com/p/technical-profile.html

答案 1 :(得分:0)

我最近遇到了类似的问题。我想你可以尝试以下步骤来找出问题。

1进行一些测试以确保数据库正常运行。

2您可以逐步调用nutch并查看日志更改以及更改DB内容(尤其是新网址),而不是批量运行抓取。

3关闭solr并专注于nutch和DB。