从Eclipse运行Tika源代码

时间:2017-04-20 15:14:27

标签: eclipse apache-tika

我一直在使用Apache Tika从不同的文档格式中提取文本。现在我想让它以不同的方式处理页眉,页脚和文本框。所以我从GitHub下载了Tika的源代码并尝试对其进行更改。

我想从Eclipse运行Apache Tika源代码并通过传递输入文档来调试其执行。我怎样才能做到这一点?主要课程有很多。我从哪里开始?我理解它是一个Maven项目,我是新手。

一旦我做了更改,我怎么能创建新的jar文件?

1 个答案:

答案 0 :(得分:1)

首先看一下Tika的xhtml输出,也许它会提取页眉/页脚,你可以使用解析器API来处理这些部分。如果是这样的话,请使用API​​作为examples表示将类似SAX的自定义处理程序传递给它。