我的CGPDFScanner
实例正在扫描测试pdf文件。
在给定时间,当前字体字典具有Encoding
值Identity-H
和带有键FontDescriptor
的{{1}}字典。此键恰好用于流值,其字典具有键FontFile2
。此密钥的值为Filter
。
我不确定如何解释和使用它(比如说,将下一个FlateDecode
块中的文本提取到Unicode)。例如,我只是zlib解压缩下一个Tj
块中的字节吗? (此处没有Tj
键。)
我认为所有的解压缩都是由ToUnicode
。
答案 0 :(得分:0)
如果字体使用Identity-H编码且它没有ToUnicode条目,则无法提取文本。 Tj运算符的参数是一系列字形索引,在没有ToUnicode条目的情况下,此序列无法转换为文本。
FontFile2条目存储实际的字体文件,从PDF文件中提取文本时没有任何作用。