正常方法失败时从PDF文件中恢复文本

时间:2013-11-15 02:49:01

标签: pdf character-encoding text-extraction

我有几百个PDF文件,我需要从中提取文本部分。对于许多人来说, pdftotext 工作正常,但对于其他人来说,它错过了大部分文本。如果我在Acrobat中打开PDF并手动选择该文本并复制/粘贴到emacs中,然后在没有编码的情况下查看该文件,我会得到这样的内容:

 Husband \364\200\200\272\364\200\201\213\364 etc.

如何正确提取文字?

我应该提一下,我曾尝试从Acrobat中保存为文本;还尝试在复制之前应用Acrobat的Document => OCR功能。

1 个答案:

答案 0 :(得分:-1)

为什么不先将PDF转换为doc或txt?参见指南: http://www.aolor.com/pdf-converter/user-guide.html