我试图创建一个简单的脚本,通过使用difflib的HtmlDiff函数向我展示差异(类似于github合并)。
到目前为止,我已经将我的pdf文件放在一起,并且能够使用PyPDF2函数以二进制文件打印它们的内容。
import difflib
import os
import PyPDF2
os.chdir('.../MyPythonScripts/PDFtesterDifflib')
file1 = 'pdf1.pdf'
file2 = 'pdf2.pdf'
file1RL = open(file1, 'rb')
pdfreader1 = PyPDF2.PdfFileReader(file1RL)
PageOBJ1 = pdfreader1.getPage(0)
textOBJ1 = PageOBJ1.extractText()
file2RL = open(file2, 'rb')
pdfreader2 = PyPDF2.PdfFileReader(file2RL)
PageOBJ2 = pdfreader2.getPage(0)
textOBJ2 = PageOBJ2.extractText()
difference = difflib.HtmlDiff().make_file(textOBJ1,textOBJ2,file1,file2)
diff_report = open('...MyPythonScripts/PDFtesterDifflib/diff_report.html','w')
diff_report.write(difference)
diff_report.close()
如何让我的线条正常读取? 它应该是: 1.apples 2.oranges 3. - 这条线应该不同 -
我在mac上运行python 3.6
提前致谢!