用于比较转储文件中的数据的任何工具?

时间:2011-05-13 07:48:52

标签: postgresql etl

这个问题与this略有相似,但更具体。我想通过获取两个转储文件中差异的可视化来测试ETL过程。转储文件包含整个数据库。这种差异不会出现在架构上,因为这样的比较很容易手动进行,而是数据上的细微差别。

有没有工具可以做到这一点?我想象的可视化可能是这样的:

  

Column1在10中有0.02%的差异   行。

当然也应该可以详细说明每一行的实际差异。

是否存在此类工具。

1 个答案:

答案 0 :(得分:1)

文字工具通常是你最好的选择。

但是,如果我正在测试ETL过程,我不想立刻测试整个转储。 (就我而言,这将是数百万行。)我宁愿自动将每个表转储到一个单独的文件中。然后很容易判断表中两个版本的数据是否相同。

cmp table.old table.new
如果文件相同,则

cmp不生成输出。 diff会告诉您差异在哪里。

diff table.old table.new

当我必须在Windows下执行此操作时,我使用Cygwin