Apache Tika仅用于解析Office文档-构建排除项

时间:2019-06-10 15:47:19

标签: apache-tika

我想将文件解析为text / xml。

我只需要解析Microsoft Office文档(特别是Microsoft Word)。

我目前在我的应用程序中包括整个tika-parsers依赖项。

由于这很繁重,并且包含了许多我不需要的东西,如果我只对解析Office文档感兴趣,可以安全排除哪些模块列表?

1 个答案:

答案 0 :(得分:0)

有一个Tika version,可以根据它们解析的文件类型将库分成modules

虽然该版本似乎不再更新,但可以用作指导您解析哪种文件类型所必需的模块。

例如,查看function setStatusCompleted(id) { var tasks = JSON.parse(localStorage.getItem('tasks')); for (var i = 0; i < tasks.length; i++) { if (tasks[i].id == id) { tasks[i].status = 'Completed'; $(function() { $("#statusLabel").removeClass('label-info').addClass('label-success'); }); } } localStorage.setItem('tasks', JSON.stringify(tasks)); fetchTasks(); } 中的pom.xml,您会发现它依赖于tika-parser-advanced-module,而opennlp-tools却没有。因此,如果您只对解析Office文档感兴趣,则可以排除tika-parser-office-module

此外,查看opennlp-tools(对于maven,依赖树)也可以提供帮助。

如果有人对此有任何意见,我仍然愿意听取建议/意见。