使PDF格式可读和差异化

时间:2014-06-11 14:36:50

标签: pdf comparison integration-testing meta human-readable

我想知道是否有人想过以更人性化的形式展示PDF文档格式的方法?

现在,要比较PDF文件,或者确切地看到版本之间的变化非常困难。肉眼看不到许多变化,因为它们不是图形表示的一部分(因为"在"和类似时创建)。

因此,如果PDF是集成测试的结果,则在没有十六进制编辑器的情况下很难找到问题。此外,很难忽视"创建"在比较中。

我不是在说任何解释和显示,只是将基本对象类型转换为某种元语言。为简单起见,让我们说XML。并命名节点,就像它们在PDF规范中命名一样。

大多数编程语言都有PDF解析器。尽管如此,至少我,找不到任何已经远远将其转换为可读的东西的人。

或者我错过了吗?

编辑: 澄清(来自规范的例子):

BI % Begin inline image object
  /W 17 % Width in samples
  /H 17 % Height in samples
  /CS /RGB % Color space
  /BPC 8 % Bits per component
  /F [ /A85 /LZW ] % Filters

会变成:

<BI>
  <W>17</W>
  <H>17</H>
  <CS><RGB/></CS>
  <BPC>8</BPC>
  <F>
    <item>A85</item>
    <item>LZW</item>
  </F>
</BI>

..等等。

可以将二进制数据提取到文件中,也可以只显示哈希值或大小。

0 个答案:

没有答案