我主要遵循this page上的指南。我安装了Nutch 2.3,Cassandra 2.0和solr 4.10.3。设置进展顺利。但是当我执行以下命令时。没有提取网址。
./bin/crawl urls/seed.txt TestCrawl http://localhost:8983/solr/ 2
以下是我的设置。
的nutch-site.xml中
http://ideone.com/H8MPcl
正则表达式-urlfilter.txt
+^http://([a-z0-9]*\.)*nutch.apache.org/
hadoop.log
http://ideone.com/LnpAw4
我没有在日志文件中看到任何错误。我真的迷路了。任何帮助,将不胜感激。谢谢!
答案 0 :(得分:0)
您必须在regex-urlfilter.txt中为您的网站添加要抓取的正则表达式,以选择您在nutch-site.xml中添加的链接。
现在它只会抓取" nutch.apache.org"
尝试添加以下行:
+^http://([a-z0-9]*\.)*ideone.com/
尝试在调试级别设置nutch日志,并在执行crawl命令时获取日志。
它将清楚地显示您无法抓取并为网站编制索引的原因。
此致
Jayesh Bhoyar
http://technical-fundas.blogspot.com/p/technical-profile.html
答案 1 :(得分:0)
我最近遇到了类似的问题。我想你可以尝试以下步骤来找出问题。
1进行一些测试以确保数据库正常运行。
2您可以逐步调用nutch并查看日志更改以及更改DB内容(尤其是新网址),而不是批量运行抓取。
3关闭solr并专注于nutch和DB。