为什么字母“f”经常无法从pdf文件中的文本中复制?

时间:2013-12-12 05:03:57

标签: pdf text copy

我不确定这个问题是否符合此条件,但对于我来说,从ff文本复制时,字母“f”经常搞砸了,这似乎很奇怪。

我作为一名学生做研究,我读了很多论文。当我想复制纸张名称以重命名pdf文件时,会发生这种情况。

例如,我在带有OSX 10.9的Macbook Pro上从Chrome的内置pdf显示插件中打开了链接a paper。尝试复制纸张标题并粘贴。 '流体'中的'f'将会丢失。

2 个答案:

答案 0 :(得分:11)

不仅“f”会丢失,“fl”也会丢失。

其原因是所谓的“ligatures”。为了看起来不错,一些字母组​​合,特别是fi,组合成一个字符。复制粘贴时很少能正确处理特殊字符。你可以在下面看到这个。如果您尝试选择连字,您会发现它只是一个“字母”。请注意,您的计算机可以使用连字法渲染两个单独的字母。

以下是“fi”连字:fi
以下是两个字母:fi

特别是以固定宽度字体显示:

The following is a "fi" ligature: fi
The following is two letters:     f‌i

答案 1 :(得分:6)

我认为@warriormole无法复制fl的原因不是使用连字本身,而是忽视或忽略PDF文件创建者。 10-15年或更久以前,每个人都很开心,因为PDF中有一些“图片”而没有人考虑过内容提取和逻辑文本而不是长期的视觉图片保存,但现在(2010年创建的文件)真是太遗憾了。

PDF提供了存储所使用的任何字形的Unicode表示的方法,并且相关文件可以相对容易地修复。