有没有人知道一个开源Java库,它会对pdf文件的文本部分进行强大的差异化处理?
理想情况下,我希望能够以补丁的形式产生差异。
答案 0 :(得分:4)
使用http://incubator.apache.org/pdfbox/提取pdf文字,并使用http://code.google.com/p/google-diff-match-patch创建差异。
答案 1 :(得分:0)
如果PDF仅在文本中有所不同,您还可以栅格化页面,然后查看这种差异 - 我们将其用于PDF代码的回归测试输出。
答案 2 :(得分:0)
你可以看看xdiffweb.com。这是一个基于apache pdfbox的纯java开源项目。