示例PDF页面:https://db.tt/qRcF000k
这是来自文档的示例页面,其中复制的文本在我最喜欢的阅读器SumatraPDF(mupdf)中显示为问号,与Adobe Acrobat中的相同。但我的主要问题是由于这个原因我无法搜索此文档,也无法将其编入索引。
OTOH,xpdf的pdftotext
提取正确的文本
在Adobe Acrobat中,如果我使用“复制为格式化文本”,则正确的文本将写入剪贴板,但我仍然无法从Acrobat中搜索。
此外,如果我在Firefox的内置PDF阅读器中打开链接页面,我可以正确复制文本。
是否可以指示GhostScript纠正这个问题,我不能将其描述为“不可读的字符”?
答案 0 :(得分:1)
PDF文件使用带有非标准编码的子集字体,而不使用ToUnicode CMaps。所以不,你不能让Ghostscript'正确'这个文件。
实际上我看不出有什么东西可以从中提取合理的文本,而且我的Acrobat版本(Pro X和Reader XI)确实无法复制有意义的文本而且看起来没有'副本作为格式化文本的菜单项,你能告诉我在哪里可以找到它吗?
但是,我注意到PDF文件实际上是由Ghostscript(版本9.14)创建的,所以你可能意味着'从一个我没有给你的不同输入文件开始,我可以生成一个PDF文件,其中文本可以复制',我只能说'我不知道',这取决于原始输入文件中的内容。