CGPDFScanner,Identity-H和解压缩

时间:2011-05-18 08:07:30

标签: ios pdf fonts cgpdf

我的CGPDFScanner实例正在扫描测试pdf文件。

在给定时间,当前字体字典具有EncodingIdentity-H和带有键FontDescriptor的{​​{1}}字典。此键恰好用于流值,其字典具有键FontFile2。此密钥的值为Filter

我不确定如何解释和使用它(比如说,将下一个FlateDecode块中的文本提取到Unicode)。例如,我只是zlib解压缩下一个Tj块中的字节吗? (此处没有Tj键。)

我认为所有的解压缩都是由ToUnicode

的实例执行的

1 个答案:

答案 0 :(得分:0)

如果字体使用Identity-H编码且它没有ToUnicode条目,则无法提取文本。 Tj运算符的参数是一系列字形索引,在没有ToUnicode条目的情况下,此序列无法转换为文本。

FontFile2条目存储实际的字体文件,从PDF文件中提取文本时没有任何作用。