使用Apache Tika解析和索引文档

时间:2015-05-06 16:15:56

标签: parsing elasticsearch apache-poi apache-tika

我正在尝试使用apache Tika解析和索引.doc文件到elasticsearch。 实际上,我的项目是为我的公司建立一个简历搜索引擎。

由于我们有一个标准化的简历格式,我想用Java中的apache tika来解析这些简历。

基本上我有一个像这样的.doc文件:

   Jean Wisser                                           avenue des Ternes
                                                          75017 Paris
   Business Intelligence Consultant

   Skills : Qlikview, SAS, Cognos, ...
   Companies : IBM, Orange, ...

我想提取并解析内容以在elasticsearch中对其进行索引,如下所示:

 XContentBuilder builder = jsonBuilder()
    .startObject()
        .field("Name", "Jean")
        .field("Lastname", "Wisser")
        .startObject("Adress")
                .field("Street", "avenue des Ternes")
                .field("City", "Paris")
           ......
           .endObject()
    .endObject()

实现这一目标的最佳方法是什么? 我应该使用Tika,POI还是别的什么?

1 个答案:

答案 0 :(得分:0)

我不知道我是否理解你的问题,但是如果你想要一个可以帮助你提取与'.doc'文件中每种信息相对应的信息的工具,Tika不能为你做那个自动(如果它们不在文档的元数据中),但您需要首先准备数据(提取文本并编写自己的程序来解析和提取数据)。提取数据后,可以使用所需字段索引文档。