我正在尝试使用apache Tika解析和索引.doc文件到elasticsearch。 实际上,我的项目是为我的公司建立一个简历搜索引擎。
由于我们有一个标准化的简历格式,我想用Java中的apache tika来解析这些简历。
基本上我有一个像这样的.doc文件:
Jean Wisser avenue des Ternes
75017 Paris
Business Intelligence Consultant
Skills : Qlikview, SAS, Cognos, ...
Companies : IBM, Orange, ...
我想提取并解析内容以在elasticsearch中对其进行索引,如下所示:
XContentBuilder builder = jsonBuilder()
.startObject()
.field("Name", "Jean")
.field("Lastname", "Wisser")
.startObject("Adress")
.field("Street", "avenue des Ternes")
.field("City", "Paris")
......
.endObject()
.endObject()
实现这一目标的最佳方法是什么? 我应该使用Tika,POI还是别的什么?
答案 0 :(得分:0)
我不知道我是否理解你的问题,但是如果你想要一个可以帮助你提取与'.doc'文件中每种信息相对应的信息的工具,Tika不能为你做那个自动(如果它们不在文档的元数据中),但您需要首先准备数据(提取文本并编写自己的程序来解析和提取数据)。提取数据后,可以使用所需字段索引文档。