将已解析的内容提交到ElasticSearch

时间:2018-08-13 13:24:26

标签: json elasticsearch

我正在尝试在Elasticsearch中上传文件(.txt,.pdf)。 Elasticsearch仅接收json格式的内容。有什么方法可以直接将解析后的内容(.pdf或.txt转换为String)发送,还是必须将String解析为json文档才能将其发送到Elasticsearch。

2 个答案:

答案 0 :(得分:0)

您只能在为文档建立索引时发送JSON,因此,基本上,该JSON的某些字段中文件的base64编码版本就可以了。如果您不希望在此内容中进行搜索,那么您要做的就是禁用该“二进制数据”字段的索引(映射中的选项index:false)。

如果您希望发送PDF文件并提取文本内容并对其进行索引/可搜索,则应查看Ingest Attachment Plugin

答案 1 :(得分:0)

您可以在此https://github.com/dadoonet/fscrawler中找到您的用例。 基本上,此搜寻器有助于索引二进制文件,例如PDF,Open Office,MS Office,并为您提供以下功能

  • 本地文件系统(或已安装的驱动器)对新文件进行爬网和编制索引, 更新现有的并删除旧的。
  • 通过SSH爬网的远程文件系统。
  • REST接口,可让您将二进制文档“上传”到 弹性搜索。