Question

以下是我正在运行的索引页面的命令。

bin/nutch crawl bin/urls -solr http://localhost:8983/solr/ -dir crawl -depth 2 -topN 15

提取发生得非常快，但是LinkDb：添加段和SolrIndexer步骤需要花费大量时间，因为我反复运行命令会增加时间。我的要求是我想尽可能快地索引页面，因为链接很快消失（2分钟内）。我想把这个时间减少到一个很小的数字，我该怎么做才能做到这一点？

如果我只想索引页面的URL和标题，那么这样做会对索引速度有什么好处吗？

由于

Answer 1

如果您有静态种子列表，那么每次要运行nutch时都可以删除“crawl”文件夹！它会为你节省很多时间！每次你运行nutch你的段增长所以linkdb会花更多的时间！你也可以创建一个线程并将这部分工作传递给它，但你必须自己处理分段购买！