PDF数据提取给出了符号/乱码?

时间:2011-11-07 16:27:31

标签: pdf character-encoding text-extraction

我有一个名为PDF2XL的软件,它通常适用于从PDF文件中提取数据表。我以前用过数百个文件。

这个文件虽然给了我乱码输出,我甚至无法正确复制并粘贴到这个textarea。各种各样的unicode古怪。

如果我按照正常情况复制并粘贴到excel / notepad中,我会遇到同样的问题。

我认为这与PDF文件中混乱的字符编码标题有关?我怎么能改变这个?我在Windows上没有可以编辑PDF的软件,所以如果我需要编辑/重新保存它,请推荐一个免费的软件来完成它。

谢谢!

1 个答案:

答案 0 :(得分:6)

使用的子化字体有越来越多的PDF文件,基本上是自定义编码。通常,PDF中的字体描述符应该有一个ToUnicode表,以允许文本提取解码字体编码并返回正确的文本。

一些PDF生产商正在故意这样做,以防止对财务报告等内容进行简单的PDF文本提取。如果只有一种字体,那么你可以手动解码字体,但根据我的经验,我看到PDF有多种随机编码,几乎不可能自动解码。

测试这些类型的PDF的一种方法是在Acrobat中打开文件,选择一些文本,复制它然后将其粘贴到记事本中。如果文本出现乱码,则PDF使用的是子集化字体,您无法做更多事情。如果Acrobat无法正确提取文本,那么其他任何内容都无法解析。它也可能是一组象形文字。