如何将PST文件解析/索引到elasticsearch?

时间:2017-02-10 16:55:50

标签: json parsing elasticsearch kibana pst

我能够在elasticsaerch中解析json文件。 无论如何要解析/索引Microsoft Outlook PST文件到Elasticsearch索引??

非常感谢

1 个答案:

答案 0 :(得分:2)

您可以使用ElasticSearch插件" Ingest Attachment",它使用Tika处理本机(PDF,XLS,PST等):

https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html

"摄取附件"插件以前被命名为#34; Mapper-Attachments"插件,因此您可以从旧名称中找到关键字的帮助:

https://www.elastic.co/guide/en/elasticsearch/plugins/current/mapper-attachments.html

这些插件允许您将base64编码的PST直接传递给ElasticSearch,ES将自动为您解析和索引场景背后的数据。

如果你想要一些自定义的东西,我建议使用许多读取PST文件的github项目之一,然后在你想要的任何文档映射中将数据发送到ElasticSearch。有许多github PST阅读器项目,所以选择一个受欢迎的项目,无论你最熟悉的语言(java,C#等等)。 Github建议搜索术语:libpst,pst reader

您也可以为Apache Tika编写自定义解析器,并使用它而不是PST读取器库。有关如何使用它的文档可以在这里找到:

https://tika.apache.org/1.6/parser.html

base64将Java文件编码为字符串的Java示例:

FileInputStream fileInputStreamReader = new FileInputStream(file);
byte[] bytes = new byte[(int)file.length()];
fileInputStreamReader.read(bytes);
String encodedfile = Base64.encodeBase64(bytes).toString();

将生成的encodedfile字符串传递给PUT调用,如本文所示:

https://www.elastic.co/guide/en/elasticsearch/plugins/current/using-ingest-attachment.html