应用错误收集

Solr内部使用lucene。 自2005年以来，nutch被指定为Lucene的子项目。历史上，nutch使用了lucene索引，并且是一个完整的搜索引擎（直到1.0版）。它具有抓取功能，甚至支持通过浏览器索引数据和UI来查询索引数据（类似于谷歌搜索）。

由于最初的设计是基于lucene（这是另一个在那个时期赢得了很多赞誉而且仍然是岩石的apache项目）， nutch代码没有改变或变得通用，因此其他索引框架本来可以使用即可。如果你愿意，那么你需要付出很多努力来建立你的索引框架。

在最新版本，（nutch ver 1.3及更进一步）中，Nutch开发团队意识到由于需求和专业知识的变化，很难跟踪索引工作。 最好将索引的责任委托给Solr （它是一个基于lucene的索引框架）。 Nutch开发人员只关注爬行部分。所以现在nutch并不是一个完整的搜索引擎，而是一个完整的网络爬虫。

希望这可以回答您的问题。您可以浏览nutch news以获取更多信息。

最新动态：

最近，人们正在努力为抓取工具创建通用库（在公共资源下）。该项目为commons-crawler，它将具有Web爬网程序所需的所有功能，并可用于创建爬网程序。更多的nutch版本将使用此库作为依赖项。

Solr是否需要为Nutch索引已爬网数据？

1 个答案: