是否有人知道任何描述基于分布式键/值存储构建的大型全文搜索引擎的链接,论文,演示文稿或博客文章?
我对索引的组织特别感兴趣。究竟什么是数据结构?字典和帖子存储在何处以及如何存储?查询处理的工作流程是什么?如何以不必在网络上传输大量数据的方式处理查询?
我认为Blekko就是这样建造的。我想知道他们或他们的竞争对手实际上做了什么。
答案 0 :(得分:0)
Google MapReduce可能会让你感兴趣。
答案 1 :(得分:0)
我不知道有一篇博文或文章可以回答你的问题完全。但是,我认为这些资源与您的问题相关,我希望它们可以帮助您提炼答案。
首先,Jeff Dean关于Google架构演变的主题演讲,
接下来,在名为Lucandra的K-V商店之上有一个开源搜索引擎 - 顾名思义,Lucene在Cassandra之上,都是Apache项目。
为了理解Lucandra的工作原理,请查看有关Lucene如何索引Cassandra数据的实现和演示。
同样,您也可以看到Lucene和HBase如何共存。这是一个Apache提交/补丁的链接,它使用一个在另一个上集成搜索层,
Redis的另一篇类似文章
接下来,查看可扩展搜索系统的操作要求
CIS实验室有一些关于这个主题的优秀研究论文,你应该查看,
对于上面可能做出的一般搜索引擎假设,这里是指向有用的书籍链接,