我们收到了一些非常旧的.doc文件。通常我们使用tika(我们的应用程序通常会进行文本提取,然后是PDF / A转换)但显然不支持msword2(和msword5)当前。我找到的唯一选择是Libreoffice命令行。还有别的吗?
搜索这个很难,因为其他人似乎都在寻找" old"和1995年一样而不是< 1991
答案 0 :(得分:0)
我们已经更多地研究了这个问题,似乎唯一的答案是我们需要使用某些版本的libwps库(与LibreOffice使用的版本相同)。
我们将研究使用Libreoffice命令行或库本身的优缺点,并且可能只是为我们的应用程序创建一个微服务。