我有一个没有复制限制的公开PDF。但是,当我尝试将文本从PDF复制到Word时,我只能得到难以理解的乱码(如框和符号)。
我尝试更改字体,这也没有用。我无法理解造成这个问题的原因。
我还搜索了一些在线工具,但这些工具似乎都没有。
任何帮助或想法?
干杯。
答案 0 :(得分:3)
如果您尝试的每个(在线)工具都无法处理此文档,则有两个选项:
我认为第2号结论是有道理的。 但是,请允许我解释一下可能是罪魁祸首。
首先,您应该将pdf文档视为指令的容器,而不是WYSIWYG文档。因此,提取文本已经是一件非繁琐的事了。
但这里的问题似乎是编码问题。 您的文档包含“在位置10,50处绘制ب”等说明。 (我以阿拉伯语文本为例。)
如果没有任何进一步的信息,观众(如Adobe)就很难知道如何处理复制粘贴功能。系统上的复制粘贴缓冲区不使用字形,而是使用unicode。
换句话说,在复制粘贴时,Adobe必须尝试将字形转换为实际的unicode。
通常,字体包含有用的信息。我们将其称为“toUnicode”地图。 它告诉系统某些字形如何与某些字符匹配。
如果您的字体不包含此类映射,则使用该字体将阻止您正确地复制粘贴。然后,还有一些程序会故意生成有缺陷的toUnicode映射(作为防止从该文档复制粘贴的一种方法)。