应用错误收集

有没有办法从Apache Tika获取doc文件中的所有样式？

时间：2016-05-03 08:50:02

标签： java apache-tika doc

我正在使用POI解析.doc文件，当文本装饰发挥作用时，它引导我进入Apache Tika。我现在可以使用简单的文本装饰来提取文本，例如<i></i>，但是，我希望能够处理更复杂的样式。我的文档包含不同的字体大小，下标，上标等。有没有办法通过Tika获取所有这些信息？如果没有，有人能指出一个更合适的工具吗？

1 个答案:

答案 0 :(得分：1)

Tika不会处理比＆lt; i＆gt;更多的事情。和＆lt; b＆gt;此刻，正如你所发现的那样。根据文档的复杂程度，您可以考虑直接使用POI（也许使用Tika的解析器作为示例）。你也可以在tika dev列表（dev@tika.apache.org）上询问是否有兴趣在Tika中添加其他格式化功能，或者可能在Jira site上打开一张票。

将doc文件夹中的所有文档索引到solr FileListEntityProcessor
使用apache tika在doc文件中获取嵌入式资源
使用Apache tika从页面中的doc / docx文件中获取文本
如何使用Apache TIka从文件中提取图像？
有没有办法让tika在找到匹配后停止解析文件？
使用Tika获取MIME类型，包含文件的一部分
有没有办法从Apache Tika获取doc文件中的所有样式？
如何将.doc或.docx文件转换为.pdf文件？
Tika解析器不解析所有文件
有没有办法使用apache tika获得jpg的评级？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？