我收到了一个使用不常用字体的PDF文件。
人眼看起来字体很好,
但如果我尝试cut-past
他们,我会得到一串'???'
答案 0 :(得分:2)
这可能是可能的,例如来自Enfocus的PitStop Pro。但是,正如其他人在评论中指出的那样,pdf中的字体和pdf本身可能已经拥有了所有可以删除的信息。
关于这个的更多细节可能:
PDF中的编码可以告诉软件要显示哪个字符,然后从字体中选择该字符进行显示,但也可以创建一个pdf,因此它只显示'显示字形嵌入字体的编号为3的#3;这就是' Identity-H'您在摘要中看到的编码。
请注意字形而不是'字符'在谈论个人的图纸时特别使用。组成一个字体,表明这些东西只是随机的'图纸直到在字体中添加一些信息以指示它们代表哪个字母(或其他字符,如数字)。
E.g。对于字符'小写字母a',您当前查看的字体有此字形:
a
但其他字体可能看起来完全不同。只是因为我们已经学会了阅读这些不同的图像作为字母小写字母a,我们认为它们是/代表相同的字母'。
如果PDF中没有此信息(如您所述),则仍可能从pdf中包含的字体获取此信息:计算机上的字体需要某种方式来允许程序选择正确的字形,如果要显示'小写-a'但是,如果将pdf设置为简单地说“显示嵌入字体的字母数字3”,则此信息不再需要,并且可以在字体放入之前从字体中删除在pdf里面。这样做可以使pdf更小,或者防止人们复制文本,例如受版权保护的作品。
在这种情况下,只有OCR可以提供帮助。我认为Adobe Acrobat(完整版,而不是Adobe Reader)在最新版本中添加了一个;然而,这意味着它试图猜出来自'图像的信件。如图所示,这可能会出错。