复制和粘贴PDF文本提供错误的文本

时间:2013-07-18 03:35:29

标签: pdf text

我有一份PDF文件,内容如下: Localização

当我复制此文本并粘贴时,它会给我:

localizac¸~ao

感谢任何帮助

韩国社交协会

2 个答案:

答案 0 :(得分:1)

对于计算机生成的文档(非OCRd /扫描)

某些系统(如LaTeX)会生成组合字符,因为系统的字体在当前编码中不包含(或支持)此类字形。结果。它们是使用Composed Glyphs动态生成的。

使两个字形看起来像一个:

A + ´ -> Á

由于这个“技巧”,可选择的PDF 文本信息包含两个分隔的字形。但图形它们都在同一位置呈现。


快速解决方案:

幸运的是,生成的字符对并不是在写得好的段落中自然发生的(可能是任何语言)。因此使用区分大小写的方法搜索/替换它们是非常安全的。您可以使用自己喜欢的文本编辑器或使用python脚本等手动完成。自动化与否,解决方案的原理是相同的。

答案 1 :(得分:0)

了解如何复制文本非常重要。如果您只是使用文本编辑器并更改基础PDF代码,那么您将遇到问题。 PDF文件以非常复杂和非人类可读的方式组织,需要专门的程序才能成功改变。如果您要进行此更改,则需要使用PDF编辑器编辑文档,或生成新文档从头开始