应用错误收集

CGPDFScanner，Identity-H和解压缩

时间：2011-05-18 08:07:30

标签： ios pdf fonts cgpdf

我的CGPDFScanner实例正在扫描测试pdf文件。

在给定时间，当前字体字典具有Encoding值Identity-H和带有键FontDescriptor的{{1}}字典。此键恰好用于流值，其字典具有键FontFile2。此密钥的值为Filter。

我不确定如何解释和使用它（比如说，将下一个FlateDecode块中的文本提取到Unicode）。例如，我只是zlib解压缩下一个Tj块中的字节吗？（此处没有Tj键。）

我认为所有的解压缩都是由ToUnicode。

的实例执行的

1 个答案:

答案 0 :(得分：0)

如果字体使用Identity-H编码且它没有ToUnicode条目，则无法提取文本。 Tj运算符的参数是一系列字形索引，在没有ToUnicode条目的情况下，此序列无法转换为文本。

FontFile2条目存储实际的字体文件，从PDF文件中提取文本时没有任何作用。