我为一家出版商工作,并试图从我们完全布局的PDF中提取内容。我尝试过pdftohtml,pdftotext,pdfminer和其他基于Python的方法来获取内容,以及从原始的Acrobat文件中保存到Word,HTML,XML等。
我不仅需要文本,我还需要文本格式。那是因为,例如,我需要文档中的所有蓝色文本。
当我从Acrobat保存到HTML,Word等时,生成的文件包含页面的屏幕截图,而不是布局文本。当我使用不同的Python模块提取文本时,我得到文本但丢失了文本格式。
我发现的唯一解决方案是手动将PDF复制并粘贴到word文档中,然后另存为HTML。我希望自动化这个。
为什么从Acrobat复制到Word会通过其他方式实现我无法做到的事情?有没有人遇到过这个问题?
答案 0 :(得分:0)
也许你可以考虑另一种方法。软件(https://pdfapi.codeplex.com/)可以直接通过MVS将pdf文件转换为html。如果您能够使用MVS,我认为上面提到的软件对于您将pdf文件中的文本转换为可以保持格式完美的html非常有用。当然,这只是推荐,你可以尝试一下。