如何快速索引PDF / MS-Word / Excel文件进​​行全文搜索?

时间:2014-05-06 03:20:07

标签: indexing full-text-search search-engine real-time

我们正在为机构构建实时搜索功能,该索引基于用户上传的文件(主要是Word / Excel / PDF / PowerPoint和ASCII文件)。预计I / O仅为10 IOPS -20 IOPS,但可能因日期而异。最大I / O可以是100 IOPS。目前的数据库大小已达到10GB,已有4个月了。

对于实时搜索服务器,我正在考虑Solr / Lucene,可能还有ElasticSearch。但挑战在于如何快速索引这些文件,以便搜索服务器可以实时查询索引。

我发现了一些关于如何索引.doc / .xls / .pdf的类似问题,但他们没有提到如何确保索引性能:

所以我的问题是:如何建立索引FAST?

有关架构的任何建议吗?我是否应该专注于构建快速基础架构(即RAID,SSD,更多CPU,网络带宽?)或专注于索引工具&算法

1 个答案:

答案 0 :(得分:1)

我们正在为办公文档构建高性能全文搜索。我们可以分享一些见解:

希望它有所帮助!