Solr 5.0和Nutch 1.10

时间:2015-06-03 13:27:22

标签: solr nutch

我在Windows Server 2008 R2上使用Solr 5.0,Nutch 1.10和cygwin。我发出命令为:

bin / crawl -D urls / bin / urls crawl / 2

据我所知,2是爬行的轮数。当我执行此命令并读取crawldb时,我只收到127个url,这与预期的相比要少得多。它也不会在更深的深度爬行。当我发出此命令以将数据传递给Solr时:

bin / nutch solrindex http://127.0.0.1:8983/solr/thetest crawl / crawldb -linkdb crawl / linkdb crawl / segments / *

然后执行搜索然后我只得到20个网址。谁能帮忙。我需要做更深入的深度爬行。

1 个答案:

答案 0 :(得分:0)

您可以逐渐增加舍入次数,这将获取更多网址。您可能会在 ./ logs 文件夹中的 hadoop.log 文件的每一轮中看到提取的网址数量。

您可以参考此link

用法:抓取[-i | --index] [-D" key = value"]         -i | --index索引将结果爬网到已配置的索引器中         -D要传递给Nutch调用的Java属性         Seed Dir用于查找种子文件的目录         Crawl Dir目录,用于保存爬网/链接/段目录         Num Rounds运行此爬网的轮数      示例:bin / crawl -i -D solr.server.url = http://localhost:8983/solr/ urls / TestCrawl / 2

 bin/crawl -i -D solr.server.url=$solrUrl cores/$coreName/urls cores/$coreName/crawl 2