标签: converter apache-tika
我需要一个通用格式转换器,它从不同的文档格式(doc,docx,.xls,.xlsx,pdf等,最好使用JAVA API)返回纯文本及其结构。
我目前使用Tika,它引入了一些错误,主要是没有返回文本结构。是否有任何工具可以返回附带转换后的纯文本的文本结构?