nutch 1.8 solr抓不开始

时间:2014-04-30 14:00:28

标签: apache tomcat solr nutch

我正在寻找几个小时的答案,无法理解问题所在。 我在apache-tomcat 7上运行了apache-nutch-1.8,solr-4.7.1。 从cygwin运行以下命令时:

bin/crawl bin/urls -solr http://localhost:8080/solr/ -depth 10 -topN 10

我得到以下内容:

cygpath: can't convert empty path
Injector: starting at 2014-04-30 16:48:58
Injector: crawlDb: -solr/crawldb
Injector: urlDir: bin/urls
Injector: Converting injected urls to crawl db entries.
Injector: total number of urls rejected by filters: 0
Injector: total number of urls injected after normalization and filtering: 517
Injector: Merging injected urls into crawl db.
Injector: overwrite: false
Injector: update: false
Injector: finished at 2014-04-30 16:49:02, elapsed: 00:00:03

就是这样。据我所知,这应该是正确的,然后开始爬行。 我在一些教程中做了所有说明,并在我的urls文件夹中有一个nutch.txt文件,在其中有大约517个要爬网的站点。 我还将网站添加为+ ^ http:// ....到NUTCH_HOME / conf中的regex-urlfilter.txt。 我应该说,当我一起停止tomcat服务时,我得到了相同的结果。 任何人都可以帮我理解问题所在吗? 谢谢!

0 个答案:

没有答案