为什么搜索引擎不使用mysql?

时间:2011-10-16 10:33:57

标签: mysql database search search-engine inverted-index

搜索引擎(或类似的Web服务)使用平面文件和nosql数据库。倒置索引的结构比多对多关系简单,但使用后者处理它应该更有效。几十亿个网页和数百万个关键字应该有两个表格。我已经测试了一张5000万行的表格; mysql的速度可以与BerkeleyDB的速度相媲美。

我认为在处理像ALTER TABLE这样的事情时会出现使用大型mysql数据库的问题(这里不是这种情况)。这种性能是读取密集型的,其中mysql非常好。当我通过SELECT读取一行时,我没有发现几行或几百万行的表之间存在显着差异; 拥有数十亿行时会有所不同吗?

注意:我不是指Google或Bing(或全文搜索等高级功能),我正在讨论这个概念。

1 个答案:

答案 0 :(得分:2)

AFAIK,nosql提供了其他常规关系数据库引擎所没有的灵活性。我不知道哪个搜索引擎使用哪个数据库引擎,但我可以想到使用nosql的几个好处(不是平面文件。不知道为什么会将它们用于复杂的应用程序)。

现在,如果您只是匹配条件并在没有特定订单的情况下发布结果 - 您可以使用任何关系数据库。但是,一旦您想提供最相关的结果,就需要考虑很多标准。你可以:

  • 优先考虑与用户先前选择的结果具有相似内容的结果。
  • 根据位置,语言和其他已知事实列举与人更相关的结果。
  • 首先列出更受欢迎的结果(同样,在特定地区/年龄组/职业组中最受欢迎,或根据有关用户的已知事实进行其他群组)。

这些只是基本的排序标准,是我想到的标准。当人们开始开发和维护时,会想到数百个其他标准,并且有可能实施。现在想想每个人将如何实施。可能有数千个字段表征每个资源,每个新功能都需要额外的数据。

你可以在关系数据库中使用EAV模式,这会给你一些灵活性,或者你可以使用NoSQL,它是为这些目的而构建的。

同样,这只是使用NoSQL的一个原因。我知道更多使用RDBMS的原因。