我正在尝试在Elasticsearch中上传文件(.txt,.pdf)。 Elasticsearch仅接收json格式的内容。有什么方法可以直接将解析后的内容(.pdf或.txt转换为String)发送,还是必须将String解析为json文档才能将其发送到Elasticsearch。
答案 0 :(得分:0)
您只能在为文档建立索引时发送JSON,因此,基本上,该JSON的某些字段中文件的base64编码版本就可以了。如果您不希望在此内容中进行搜索,那么您要做的就是禁用该“二进制数据”字段的索引(映射中的选项index:false
)。
如果您希望发送PDF文件并提取文本内容并对其进行索引/可搜索,则应查看Ingest Attachment Plugin。
答案 1 :(得分:0)
您可以在此https://github.com/dadoonet/fscrawler中找到您的用例。 基本上,此搜寻器有助于索引二进制文件,例如PDF,Open Office,MS Office,并为您提供以下功能