以下是我正在运行的索引页面的命令。
bin/nutch crawl bin/urls -solr http://localhost:8983/solr/ -dir crawl -depth 2 -topN 15
提取发生得非常快,但是LinkDb:添加段和SolrIndexer步骤需要花费大量时间,因为我反复运行命令会增加时间。我的要求是我想尽可能快地索引页面,因为链接很快消失(2分钟内)。我想把这个时间减少到一个很小的数字,我该怎么做才能做到这一点?
如果我只想索引页面的URL和标题,那么这样做会对索引速度有什么好处吗?
由于
答案 0 :(得分:1)
如果您有静态种子列表,那么每次要运行nutch时都可以删除“crawl”文件夹!它会为你节省很多时间! 每次你运行nutch你的段增长所以linkdb会花更多的时间! 你也可以创建一个线程并将这部分工作传递给它,但你必须自己处理分段购买!