我想将文件解析为text / xml。
我只需要解析Microsoft Office文档(特别是Microsoft Word)。
我目前在我的应用程序中包括整个tika-parsers
依赖项。
由于这很繁重,并且包含了许多我不需要的东西,如果我只对解析Office文档感兴趣,可以安全排除哪些模块列表?
答案 0 :(得分:0)
有一个Tika version,可以根据它们解析的文件类型将库分成modules。
虽然该版本似乎不再更新,但可以用作指导您解析哪种文件类型所必需的模块。
例如,查看function setStatusCompleted(id) {
var tasks = JSON.parse(localStorage.getItem('tasks'));
for (var i = 0; i < tasks.length; i++) {
if (tasks[i].id == id) {
tasks[i].status = 'Completed';
$(function() {
$("#statusLabel").removeClass('label-info').addClass('label-success');
});
}
}
localStorage.setItem('tasks', JSON.stringify(tasks));
fetchTasks();
}
中的pom.xml
,您会发现它依赖于tika-parser-advanced-module
,而opennlp-tools
却没有。因此,如果您只对解析Office文档感兴趣,则可以排除tika-parser-office-module
。
此外,查看opennlp-tools
(对于maven,依赖树)也可以提供帮助。
如果有人对此有任何意见,我仍然愿意听取建议/意见。