Question

我在Windows Server 2008 R2上使用Solr 5.0，Nutch 1.10和cygwin。我发出命令为：

bin / crawl -D urls / bin / urls crawl / 2

据我所知，2是爬行的轮数。当我执行此命令并读取crawldb时，我只收到127个url，这与预期的相比要少得多。它也不会在更深的深度爬行。当我发出此命令以将数据传递给Solr时：

bin / nutch solrindex http://127.0.0.1:8983/solr/thetest crawl / crawldb -linkdb crawl / linkdb crawl / segments / *

然后执行搜索然后我只得到20个网址。谁能帮忙。我需要做更深入的深度爬行。

Answer 1

您可以逐渐增加舍入次数，这将获取更多网址。您可能会在 ./ logs 文件夹中的 hadoop.log 文件的每一轮中看到提取的网址数量。

您可以参考此link

用法：抓取[-i | --index] [-D＆＃34; key = value＆＃34;] -i | --index索引将结果爬网到已配置的索引器中 -D要传递给Nutch调用的Java属性 Seed Dir用于查找种子文件的目录 Crawl Dir目录，用于保存爬网/链接/段目录 Num Rounds运行此爬网的轮数示例：bin / crawl -i -D solr.server.url = http://localhost:8983/solr/ urls / TestCrawl / 2

 bin/crawl -i -D solr.server.url=$solrUrl cores/$coreName/urls cores/$coreName/crawl 2

Solr 5.0和Nutch 1.10

1 个答案: