应用错误收集

Java Pdf Diff库

时间：2009-05-20 10:27:04

标签： java pdf diff

有没有人知道一个开源Java库，它会对pdf文件的文本部分进行强大的差异化处理？

理想情况下，我希望能够以补丁的形式产生差异。

3 个答案:

答案 0 :(得分：4)

使用http://incubator.apache.org/pdfbox/提取pdf文字，并使用http://code.google.com/p/google-diff-match-patch创建差异。

答案 1 :(得分：0)

如果PDF仅在文本中有所不同，您还可以栅格化页面，然后查看这种差异 - 我们将其用于PDF代码的回归测试输出。

答案 2 :(得分：0)

你可以看看xdiffweb.com。这是一个基于apache pdfbox的纯java开源项目。