pdf差异数组中的陌生格式

时间:2019-03-15 20:50:23

标签: pdf encoding cp1252

我正在尝试对pdf进行解码以从中获取文本,但是在使用差分数组时遇到了问题。从我正在使用的文档中提取的差异数组采用以下格式:

'BaseEncoding': 'WinAnsiEncoding', 'Differences': [1, 'g39', 'g38', 'g51', ';#23#23#23', ';#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23', 'g40', 'g79', 'g72', 'g70', 'g87', 'g85', 'g82', 'g81', 'g76', 'g54'...]

我找到了有关如何使用差异表的其他格式的说明,例如:

/Differences [ 24 /breve/caron/circumflex/dotaccent/hungarumlaut/ogonek/ring/tilde 39 /quotesingle 96 /grave 128 /bullet/dagger/daggerdbl/ellipsis... ]

数字代码告诉您应该使用什么字符,但是我似乎找不到关于如何使用第一种类型的差异表的说明。

编辑:这是file

1 个答案:

答案 0 :(得分:0)

ISO PDF32000-1:2008规范的9.6.6节字符编码将/ Encoding字典的Differences键描述为:

  

一个数组,描述与BaseEncoding 指定的编码或(如果不存在BaseEncoding)隐式基本编码的区别。差异数组将在后续子节中进行描述。

在这种情况下,它指定与WinAnsiEncoding的区别。