Question

我正在python 3上使用windows 10（尽管OS X也可用）。我正在尝试从许多.pdf文件中提取所有中文字符的文本。除某些文件外，我在pdfminer和textract上取得了成功。这些文件不是图像，而是带有可选文本的正确文档。如果我使用Adobe Acrobat Pro X并导出到.txt，则输出如下：

!! 
F/.....e..................! 
216.. ..... .... .... 
........

如果我输出到.doc，.docx，.rtf，甚至复制粘贴到任何文本编辑器中，它看起来像这样：

ҁϦљӢख़ε༊౗ݢ୏ቹៜϐѦჾѱ൑॥ᓀϩ݋ӵΠ

我不知道Adobe为什么会正确显示文本但不能正确导出文本，甚至让我复制粘贴。我以为这可能是字体问题，我已经安装了DFKaiShu sb-estd-bf字体（它似乎是Windows附带的）。

我做有一种解决方法，但是它很丑陋并且很难实现自动化。我将pdf打印为pdf（或任何类型的图像），然后使用adobe pro的内置OCR，然后转换为word文档（仍然无法正确转换为.txt）。最终，我需要对大约2000个文档执行此操作，每个文档最多200页。

还有其他方法吗？为什么导出或复制粘贴无法正常工作？我已经将一个2页的示例上传到了Google驱动器here。

从pdf获取中文文本，字体编码问题

0 个答案: