Document to Text转换器,返回文本结构

时间:2016-09-12 08:18:38

标签: converter apache-tika

我需要一个通用格式转换器,它从不同的文档格式(doc,docx,.xls,.xlsx,pdf等,最好使用JAVA API)返回纯文本及其结构。

我目前使用Tika,它引入了一些错误,主要是没有返回文本结构。是否有任何工具可以返回附带转换后的纯文本的文本结构?

0 个答案:

没有答案