Nutch在飞行中查询

时间:2011-02-09 04:56:06

标签: solr nutch

我是nutch和solr的新手。 Solr比Nutch要新得多:)

过去两周我一直在使用nutch,我想知道我是否可以动态查询或搜索我的nutch爬行(在它完成之前)。我问这个是因为我抓取的网站非常庞大,爬行完成大约需要3-4天。我想分析一些快速结果,而nutch crawler仍在抓取URL。有人建议我Solr会使它成为可能。

我按照http://www.lucidimagination.com/blog/2009/03/09/nutch-solr/中的步骤进行了操作。我看到只有注入的URL显示在Solr搜索中。我知道我做了一些非常愚蠢的事情并且从未发生过爬行,我觉得我在这里缺少一些信息。但我做了链接中提到的所有步骤。我认为在这个过程中的某个地方应该有一个爬行的发生而且错过了。

只是想看看是否有人可以帮助我指出这一点以及我在这个过程中出错的地方。原谅我的愚蠢,感谢你的耐心。

干杯, 阿比

1 个答案:

答案 0 :(得分:0)

这是不可能的。 你可以做的是在较小数量的URL中对爬行周期进行分块,这样它就会更频繁地发布结果。 nutch generate crawl/crawldb crawl/segments -topN <the limit>
如果您使用onestop命令craw l它应该是相同的。

我通常有一个24小时的分块方案。