pdf到单词转换显示垃圾内容

时间:2017-09-20 08:36:22

标签: pdf ms-word doc

我有一个没有复制限制的公开PDF。但是,当我尝试将文本从PDF复制到Word时,我只能得到难以理解的乱码(如框和符号)。

我尝试更改字体,这也没有用。我无法理解造成这个问题的原因。

我还搜索了一些在线工具,但这些工具似乎都没有。

任何帮助或想法?

干杯。

1 个答案:

答案 0 :(得分:3)

如果您尝试的每个(在线)工具都无法处理此文档,则有两个选项:

  1. 每个工具都错了
  2. 您的文档错误
  3. 我认为第2号结论是有道理的。 但是,请允许我解释一下可能是罪魁祸首。

    首先,您应该将pdf文档视为指令的容器,而不是WYSIWYG文档。因此,提取文本已经是一件非繁琐的事了。

    但这里的问题似乎是编码问题。 您的文档包含“在位置10,50处绘制ب”等说明。 (我以阿拉伯语文本为例。)

    如果没有任何进一步的信息,观众(如Adobe)就很难知道如何处理复制粘贴功能。系统上的复制粘贴缓冲区不使用字形,而是使用unicode。

    换句话说,在复制粘贴时,Adobe必须尝试将字形转换为实际的unicode。

    通常,字体包含有用的信息。我们将其称为“toUnicode”地图。 它告诉系统某些字形如何与某些字符匹配。

    如果您的字体不包含此类映射,则使用该字体将阻止您正确地复制粘贴。然后,还有一些程序会故意生成有缺陷的toUnicode映射(作为防止从该文档复制粘贴的一种方法)。