我正在做一个为一堆PDF文档建立索引的项目,为此,我选择了Elasticsearch,因为它是基于Apache Lucene的。 签出几个文档
和Stackoverflow问题: How to index a pdf file in Elasticsearch 5.0.0 with ingest-attachment plugin?
就性能,存储空间和有效性而言,使用如上所述的摄取插件或解析pdf并存储每页,两页或三页(这可能是一个不断变化的参数)是一种更好的方法。并将它们放在单独的文档中?