Apache Lucene与Google Search Appliance

时间:2013-05-24 12:23:26

标签: search lucene google-search-appliance

有没有人遇到过Apache Lucene的功能?我听说它甚至可以与Google Search Appliance(GSA)相媲美。如果可能的话,我正在寻找两者之间的明确比较?

在线提供的这些比较非常模糊。

1 个答案:

答案 0 :(得分:38)

可能很难找到Apache Lucene和Google Search Appliance之间的比较,因为它们是如此不同的东西。虽然Lucene是一个软件组件,用于索引内置基本相关性“增强”的文档,但GSA是一个企业搜索产品(设备/物理硬件),具有大量现成功能,可根据情况调整和优化搜索结果 Google搜索算法。

因此它们基本上是两个具有不同实现方案的优秀工具。但当然重叠,特别是如果用于在普通网站上提供搜索。

在我的脑海中,您可能想要开始一些比较的主题:

<强>部署/建筑

  • Lucene是一个软件组件,可以深度集成到您自己的软件中,提供索引(通常基于文件,有时在内存中),以快速索引和检索内容。
  • lucene项目提供了相当多的分析器列表,可以对不同语言(西方语言,阿拉伯语,亚洲语等)进行指针索引,但是有分析器改进的空间
  • Lucene for .Net是一个非常受欢迎的端口,可以集成到Microsoft .Net Plattforms。
  • GSA软件和硬件捆绑在一起并作为具有HTTP(s)接口的设备出售,以HTML(通过其自己的XSLT)或XML(为了更好地集成到您的网站)提供搜索结果。
  • GSA附带语言包(已安装和可下载)。您必须选择其中一个捆绑包。如果您需要支持更多语言,则可能需要将另一个GSA添加到基础结构中(如果所有必需语言不在一个包中)
  • GSA表现出色,只需要很少的维护
  • GSA让您在几乎没有工程努力的情况下进行扩展。全局分布式,但可以通过Web界面设置连接的GSA
  • 通过购买更便宜的热备份模块可以使GSA成为HA。

<强>索引

  • Lucene提供抓取工具(和抓取工具API)来索引内容。它不关心您的抓取工具是否实际抓取Google等网站,或者您是否基于SQL语句抓取数据库或提供从平面文件读取的文本流。但通常,如果提供的不符合您的需求,您必须实施爬虫
  • GSA使用Google使用的抓取技术,尊重机器人指令(在TXT或Meta标签中),它为无法抓取的源(​​即它们之间没有链接)提供源API,并且它支持设置SQL查询到所有市长数据库用于从数据库中检索数据(无论是要爬网的URL还是数据本身)

检索/相关性调整

  • Lucene并不瞄准并且没有很好的支持相关性调整(除了提升索引中的条目)。这取决于使用索引结果进行调整的应用程序
  • Lucene是SOLR使用的索引,它提供的调优和架构更类似于GSA(包括HTTP上的结果检索)
  • GSA让您根据元数据,日期和网址格式偏向结果集。在最新版本中,您甚至可以设置自己的实体并根据它们对结果进行偏差
  • GSA支持元数据的开箱即用方面,以及其界面上的一些更奇特的内容,如文档的预览图像,自动提示等。

商业用品

  • Lucene是一个开源(免费)产品,但需要购买硬件
  • 对于500k文件/网址,GSA的起价约为2万美元
  • Google提供了多种支持级别
  • GSA许可证必须在2年或3年后续订(您获得新硬件)
  • GSA不需要任何其他硬件(包括设备)

......还有更多要补充的内容,但我希望你明白这一点。


2016年2月更新:

Google已通知合作伙伴,GSA将于2019年左右停止使用。目前链接的最佳网站似乎是http://fortune.com/2016/02/04/google-ends-search-appliance/