我想知道是否有人想过以更人性化的形式展示PDF文档格式的方法?
现在,要比较PDF文件,或者确切地看到版本之间的变化非常困难。肉眼看不到许多变化,因为它们不是图形表示的一部分(因为"在"和类似时创建)。
因此,如果PDF是集成测试的结果,则在没有十六进制编辑器的情况下很难找到问题。此外,很难忽视"创建"在比较中。
我不是在说任何解释和显示,只是将基本对象类型转换为某种元语言。为简单起见,让我们说XML。并命名节点,就像它们在PDF规范中命名一样。
大多数编程语言都有PDF解析器。尽管如此,至少我,找不到任何已经远远将其转换为可读的东西的人。
或者我错过了吗?
编辑: 澄清(来自规范的例子):
BI % Begin inline image object
/W 17 % Width in samples
/H 17 % Height in samples
/CS /RGB % Color space
/BPC 8 % Bits per component
/F [ /A85 /LZW ] % Filters
会变成:
<BI>
<W>17</W>
<H>17</H>
<CS><RGB/></CS>
<BPC>8</BPC>
<F>
<item>A85</item>
<item>LZW</item>
</F>
</BI>
..等等。
可以将二进制数据提取到文件中,也可以只显示哈希值或大小。