用Elasticsearch逐页索引PDF与使用摄取插件

时间:2018-07-14 20:18:51

标签: elasticsearch indexing

我正在做一个为一堆PDF文档建立索引的项目,为此,我选择了Elasticsearch,因为它是基于Apache Lucene的。 签出几个文档

和Stackoverflow问题: How to index a pdf file in Elasticsearch 5.0.0 with ingest-attachment plugin?

就性能,存储空间和有效性而言,使用如上所述的摄取插件或解析pdf并存储每页,两页或三页(这可能是一个不断变化的参数)是一种更好的方法。并将它们放在单独的文档中?

0 个答案:

没有答案