我们正在努力让客户重新设计一个基本处理大量文件的现有系统。
文件(超过500万)当前存储在服务器文件系统上。客户端希望新系统将文件存储在S3中。 这些文件还有关联的元数据(名称,作者姓名,价格,描述等)。
搜索功能也需要重新设计。以下是基本要求
此外,根据文件描述,系统还应该能够为类似文件提供建议。
我之前没有创建此类解决方案的经验,所以请求帮助和建议。 我正在考虑以下解决方案:
我找到了这个项目,这与我的要求非常相似 http://www.thriftdb.com - 在主页上,它表示内置搜索的数据存储区。
如果这个问题应该是社区维基,请告诉我。
提前致谢。
答案 0 :(得分:6)
答案 1 :(得分:1)
关于搜索文件和按属性过滤,最好的是在文件管理器中使用的Sphinx搜索引擎(谷歌也在几年前使用它)。 我不知道它是否适用于亚马逊服务器。
答案 2 :(得分:0)
亚马逊为Lucene / Solr定制AMI,我们很高兴在我们的项目中使用它。 Lucene具有强大的索引功能,并以极高的速度执行。我强烈建议您使用Apache Lucene / Solr满足您的所有搜索需求。