Question

我试图创建一个简单的脚本，通过使用difflib的HtmlDiff函数向我展示差异（类似于github合并）。

到目前为止，我已经将我的pdf文件放在一起，并且能够使用PyPDF2函数以二进制文件打印它们的内容。

import difflib
import os
import PyPDF2

os.chdir('.../MyPythonScripts/PDFtesterDifflib')

file1 = 'pdf1.pdf'
file2 = 'pdf2.pdf'

file1RL = open(file1, 'rb')
pdfreader1 = PyPDF2.PdfFileReader(file1RL)
PageOBJ1 = pdfreader1.getPage(0)
textOBJ1 = PageOBJ1.extractText()


file2RL = open(file2, 'rb')
pdfreader2 = PyPDF2.PdfFileReader(file2RL)
PageOBJ2 = pdfreader2.getPage(0)
textOBJ2 = PageOBJ2.extractText()

difference = difflib.HtmlDiff().make_file(textOBJ1,textOBJ2,file1,file2)

diff_report = open('...MyPythonScripts/PDFtesterDifflib/diff_report.html','w')
diff_report.write(difference)
diff_report.close()

结果如下：

如何让我的线条正常读取？它应该是： 1.apples 2.oranges 3. - 这条线应该不同 -

我在mac上运行python 3.6

提前致谢！

PyPDF2差异导致每行1个字符

0 个答案: