我们正在为机构构建实时搜索功能,该索引基于用户上传的文件(主要是Word / Excel / PDF / PowerPoint和ASCII文件)。预计I / O仅为10 IOPS -20 IOPS,但可能因日期而异。最大I / O可以是100 IOPS。目前的数据库大小已达到10GB,已有4个月了。
对于实时搜索服务器,我正在考虑Solr / Lucene,可能还有ElasticSearch。但挑战在于如何快速索引这些文件,以便搜索服务器可以实时查询索引。
我发现了一些关于如何索引.doc / .xls / .pdf的类似问题,但他们没有提到如何确保索引性能:
所以我的问题是:如何建立索引FAST?
有关架构的任何建议吗?我是否应该专注于构建快速基础架构(即RAID,SSD,更多CPU,网络带宽?)或专注于索引工具&算法
答案 0 :(得分:1)
我们正在为办公文档构建高性能全文搜索。我们可以分享一些见解:
希望它有所帮助!