Solr是否需要为Nutch索引已爬网数据?

时间:2012-04-23 13:38:41

标签: solr lucene nutch

我发现Nutch 1.4只包含一个Indexer / solrindex。 Solr是Nutch索引已爬网数据的唯一途径吗?如果没有,还有其他方法吗?

我也想知道为什么Nutch 1.4使用Solr来索引数据。为什么不亲自去做?它不会增加这两个项目的耦合吗?

1 个答案:

答案 0 :(得分:3)

Solr内部使用lucene。 自2005年以来,nutch被指定为Lucene的子项目。历史上,nutch使用了lucene索引,并且是一个完整的搜索引擎(直到1.0版)。它具有抓取功能,甚至支持通过浏览器索引数据和UI来查询索引数据(类似于谷歌搜索)。

由于最初的设计是基于lucene(这是另一个在那个时期赢得了很多赞誉而且仍然是岩石的apache项目), nutch代码没有改变或变得通用,因此其他索引框架本来可以使用即可。如果你愿意,那么你需要付出很多努力来建立你的索引框架。

在最新版本,(nutch ver 1.3及更进一步)中,Nutch开发团队意识到由于需求和专业知识的变化,很难跟踪索引工作。 最好将索引的责任委托给Solr (它是一个基于lucene的索引框架)。 Nutch开发人员只关注爬行部分。所以现在nutch并不是一个完整的搜索引擎,而是一个完整的网络爬虫。

希望这可以回答您的问题。您可以浏览nutch news以获取更多信息。

最新动态:

最近,人们正在努力为抓取工具创建通用库(在公共资源下)。该项目为commons-crawler,它将具有Web爬网程序所需的所有功能,并可用于创建爬网程序。更多的nutch版本将使用此库作为依赖项。