PyPDF2差异导致每行1个字符

时间:2018-03-07 06:44:15

标签: python-3.x difflib pypdf2

我试图创建一个简单的脚本,通过使用difflib的HtmlDiff函数向我展示差异(类似于github合并)。

到目前为止,我已经将我的pdf文件放在一起,并且能够使用PyPDF2函数以二进制文件打印它们的内容。

import difflib
import os
import PyPDF2

os.chdir('.../MyPythonScripts/PDFtesterDifflib')

file1 = 'pdf1.pdf'
file2 = 'pdf2.pdf'

file1RL = open(file1, 'rb')
pdfreader1 = PyPDF2.PdfFileReader(file1RL)
PageOBJ1 = pdfreader1.getPage(0)
textOBJ1 = PageOBJ1.extractText()


file2RL = open(file2, 'rb')
pdfreader2 = PyPDF2.PdfFileReader(file2RL)
PageOBJ2 = pdfreader2.getPage(0)
textOBJ2 = PageOBJ2.extractText()

difference = difflib.HtmlDiff().make_file(textOBJ1,textOBJ2,file1,file2)

diff_report = open('...MyPythonScripts/PDFtesterDifflib/diff_report.html','w')
diff_report.write(difference)
diff_report.close()

结果如下:enter image description here

如何让我的线条正常读取? 它应该是: 1.apples 2.oranges 3. - 这条线应该不同 -

我在mac上运行python 3.6

提前致谢!

0 个答案:

没有答案