解析/转换旧Word文档? (msword2 / 5)

时间:2018-05-14 07:34:29

标签: pdf ms-word libreoffice apache-tika

我们收到了一些非常旧的.doc文件。通常我们使用tika(我们的应用程序通常会进行文本提取,然后是PDF / A转换)但显然不支持msword2(和msword5)当前。我找到的唯一选择是Libreoffice命令行。还有别的吗?

搜索这个很难,因为其他人似乎都在寻找" old"和1995年一样而不是< 1991

1 个答案:

答案 0 :(得分:0)

我们已经更多地研究了这个问题,似乎唯一的答案是我们需要使用某些版本的libwps库(与LibreOffice使用的版本相同)。

我们将研究使用Libreoffice命令行或库本身的优缺点,并且可能只是为我们的应用程序创建一个微服务。