我有一份PDF文件,内容如下: Localização
当我复制此文本并粘贴时,它会给我:
localizac¸~ao
感谢任何帮助
韩国社交协会
答案 0 :(得分:1)
某些系统(如LaTeX
)会生成组合字符,因为系统的字体在当前编码中不包含(或支持)此类字形。结果。它们是使用Composed Glyphs动态生成的。
使两个字形看起来像一个:
A + ´ -> Á
由于这个“技巧”,可选择的PDF 文本信息包含两个分隔的字形。但图形它们都在同一位置呈现。
快速解决方案:
幸运的是,生成的字符对并不是在写得好的段落中自然发生的(可能是任何语言)。因此使用区分大小写的方法搜索/替换它们是非常安全的。您可以使用自己喜欢的文本编辑器或使用python脚本等手动完成。自动化与否,解决方案的原理是相同的。
答案 1 :(得分:0)
了解如何复制文本非常重要。如果您只是使用文本编辑器并更改基础PDF代码,那么您将遇到问题。 PDF文件以非常复杂和非人类可读的方式组织,需要专门的程序才能成功改变。如果您要进行此更改,则需要使用PDF编辑器来编辑文档,或生成新文档从头开始