Question

我正在尝试使用apache Tika解析和索引.doc文件到elasticsearch。实际上，我的项目是为我的公司建立一个简历搜索引擎。

由于我们有一个标准化的简历格式，我想用Java中的apache tika来解析这些简历。

基本上我有一个像这样的.doc文件：

   Jean Wisser                                           avenue des Ternes
                                                          75017 Paris
   Business Intelligence Consultant

   Skills : Qlikview, SAS, Cognos, ...
   Companies : IBM, Orange, ...

我想提取并解析内容以在elasticsearch中对其进行索引，如下所示：

 XContentBuilder builder = jsonBuilder()
    .startObject()
        .field("Name", "Jean")
        .field("Lastname", "Wisser")
        .startObject("Adress")
                .field("Street", "avenue des Ternes")
                .field("City", "Paris")
           ......
           .endObject()
    .endObject()

实现这一目标的最佳方法是什么？我应该使用Tika，POI还是别的什么？

Answer 1

我不知道我是否理解你的问题，但是如果你想要一个可以帮助你提取与'.doc'文件中每种信息相对应的信息的工具，Tika不能为你做那个自动（如果它们不在文档的元数据中），但您需要首先准备数据（提取文本并编写自己的程序来解析和提取数据）。提取数据后，可以使用所需字段索引文档。

使用Apache Tika解析和索引文档

1 个答案: