应用错误收集

我为一家出版商工作，并试图从我们完全布局的PDF中提取内容。我尝试过pdftohtml，pdftotext，pdfminer和其他基于Python的方法来获取内容，以及从原始的Acrobat文件中保存到Word，HTML，XML等。

我不仅需要文本，我还需要文本格式。那是因为，例如，我需要文档中的所有蓝色文本。

当我从Acrobat保存到HTML，Word等时，生成的文件包含页面的屏幕截图，而不是布局文本。当我使用不同的Python模块提取文本时，我得到文本但丢失了文本格式。

我发现的唯一解决方案是手动将PDF复制并粘贴到word文档中，然后另存为HTML。我希望自动化这个。

为什么从Acrobat复制到Word会通过其他方式实现我无法做到的事情？有没有人遇到过这个问题？