我在Windows Server 2008 R2上使用Solr 5.0,Nutch 1.10和cygwin。我发出命令为:
bin / crawl -D urls / bin / urls crawl / 2
据我所知,2是爬行的轮数。当我执行此命令并读取crawldb时,我只收到127个url,这与预期的相比要少得多。它也不会在更深的深度爬行。当我发出此命令以将数据传递给Solr时:
bin / nutch solrindex http://127.0.0.1:8983/solr/thetest crawl / crawldb -linkdb crawl / linkdb crawl / segments / *
然后执行搜索然后我只得到20个网址。谁能帮忙。我需要做更深入的深度爬行。
答案 0 :(得分:0)
您可以逐渐增加舍入次数,这将获取更多网址。您可能会在 ./ logs 文件夹中的 hadoop.log 文件的每一轮中看到提取的网址数量。
您可以参考此link
用法:抓取[-i | --index] [-D" key = value"] -i | --index索引将结果爬网到已配置的索引器中 -D要传递给Nutch调用的Java属性 Seed Dir用于查找种子文件的目录 Crawl Dir目录,用于保存爬网/链接/段目录 Num Rounds运行此爬网的轮数 示例:bin / crawl -i -D solr.server.url = http://localhost:8983/solr/ urls / TestCrawl / 2
bin/crawl -i -D solr.server.url=$solrUrl cores/$coreName/urls cores/$coreName/crawl 2