我正在尝试从此文件中提取文本:
https://www.dropbox.com/s/249snnj1nsve5ir/Lebenslauf.pdf?dl=0
使用CGPDFScanner。我可以从包含的PDF字典中检测到字符编码是WinAnsiEncoding,但字符都出现乱码。作为交叉检查,我尝试从Mac OS X中的预览应用程序复制粘贴文本,这是有效的 - 所以不知何故必须可以将其作为字符串提取。另一方面,商业第三方框架http://www.fastpdfkit.com也无法正确提取文本。
任何人都知道我错过了什么?
作为旁注,我使用https://github.com/KurtCode/PDFKitten来扫描PDF。