我正在使用POI解析.doc文件,当文本装饰发挥作用时,它引导我进入Apache Tika。我现在可以使用简单的文本装饰来提取文本,例如<i></i>
,但是,我希望能够处理更复杂的样式。我的文档包含不同的字体大小,下标,上标等。有没有办法通过Tika获取所有这些信息?如果没有,有人能指出一个更合适的工具吗?
答案 0 :(得分:1)
Tika不会处理比&lt; i&gt;更多的事情。和&lt; b&gt;此刻,正如你所发现的那样。根据文档的复杂程度,您可以考虑直接使用POI(也许使用Tika的解析器作为示例)。你也可以在tika dev列表(dev@tika.apache.org)上询问是否有兴趣在Tika中添加其他格式化功能,或者可能在Jira site上打开一张票。