从pdf获取中文文本,字体编码问题

时间:2018-11-13 10:52:38

标签: python pdf

我正在python 3上使用windows 10(尽管OS X也可用)。我正在尝试从许多.pdf文件中提取所有中文字符的文本。除某些文件外,我在pdfminertextract上取得了成功。这些文件不是图像,而是带有可选文本的正确文档。如果我使用Adobe Acrobat Pro X并导出到.txt,则输出如下:

!! 
F/.....e..................! 
216.. ..... .... .... 
........   

如果我输出到.doc.docx.rtf,甚至复制粘贴到任何文本编辑器中,它看起来像这样:

ҁϦљӢख़ε༊౗ݢ୏ቹៜϐѦჾѱ൑॥ᓀϩ݋ӵΠ

我不知道Adobe为什么会正确显示文本但不能正确导出文本,甚至让我复制粘贴。我以为这可能是字体问题,我已经安装了DFKaiShu sb-estd-bf字体(它似乎是Windows附带的)。

有一种解决方法,但是它很丑陋并且很难实现自动化。我将pdf打印为pdf(或任何类型的图像),然后使用adobe pro的内置OCR,然后转换为word文档(仍然无法正确转换为.txt)。最终,我需要对大约2000个文档执行此操作,每个文档最多200页。

还有其他方法吗?为什么导出或复制粘贴无法正常工作?我已经将一个2页的示例上传到了Google驱动器here

0 个答案:

没有答案