我希望为大型数据集实施一个存储和搜索解决方案,该解决方案拥有超过400万个文档。每个文档将包含40个或更多字段(或搜索条件)
之前我曾与Lucene和Solr合作,因此我倾向于将它们用于此问题(当然欢迎任何其他想法和解决方案)。但令我烦恼的是高效且可扩展的存储。我一直在寻找Cassandra和MongoDB以及其他一些NoSQL解决方案,但无法确定哪种技术可以满足要求。
我想问一下是否有人遇到过类似的问题以及他/她用来解决的问题..
答案 0 :(得分:1)
查看此调查表以获取一般参考:
面向文档的数据存储的调查,一些指标可用 http://cattell.net/datastores/Datastores.pdf
对于IEEE订户:
NoSQL评估:面向用例的调查
http://www.computer.org/portal/web/csdl/doi/10.1109/CSC.2011.6138544
http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=6138544&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D6138544