我有几百个PDF文件,我需要从中提取文本部分。对于许多人来说, pdftotext 工作正常,但对于其他人来说,它错过了大部分文本。如果我在Acrobat中打开PDF并手动选择该文本并复制/粘贴到emacs中,然后在没有编码的情况下查看该文件,我会得到这样的内容:
Husband \364\200\200\272\364\200\201\213\364 etc.
如何正确提取文字?
我应该提一下,我曾尝试从Acrobat中保存为文本;还尝试在复制之前应用Acrobat的Document => OCR功能。