LinkDb:添加细分和& SolrIndexer需要很多时间

时间:2013-07-21 06:24:03

标签: nutch

以下是我正在运行的索引页面的命令。

bin/nutch crawl bin/urls -solr http://localhost:8983/solr/ -dir crawl -depth 2 -topN 15

提取发生得非常快,但是LinkDb:添加段和SolrIndexer步骤需要花费大量时间,因为我反复运行命令会增加时间。我的要求是我想尽可能快地索引页面,因为链接很快消失(2分钟内)。我想把这个时间减少到一个很小的数字,我该怎么做才能做到这一点?

如果我只想索引页面的URL和标题,那么这样做会对索引速度有什么好处吗?

由于

1 个答案:

答案 0 :(得分:1)

如果您有静态种子列表,那么每次要运行nutch时都可以删除“crawl”文件夹!它会为你节省很多时间! 每次你运行nutch你的段增长所以linkdb会花更多的时间! 你也可以创建一个线程并将这部分工作传递给它,但你必须自己处理分段购买!