从pdf提取数据并找到拼写错误的单词,并希望用颜色突出显示并另存为.pdf或.doc

时间:2019-12-05 10:41:26

标签: python pypdf2

我是Python新手,想从pdf文件中提取所有数据,并希望使用任何颜色突出显示拼写错误的单词,并且需要另存为.pdf或.Doc

我已经完成了一些步骤。

from nltk import word_tokenize
import enchant
import re
import PyPDF2

# open the pdf file
object = PyPDF2.PdfFileReader('E:\\PyProject\\PDF\\test1.pdf', 'rb')

# get number of pages
NumPages = object.getNumPages()

# read all the pages
for i in range(0, NumPages):
    PageObj = object.getPage(i)
    Text = PageObj.extractText()


# check misspelled words
d = enchant.Dict("en_US")


non_dict_words = list(set([word.encode('ascii', 'ignore') for word in word_tokenize(Text) if d.check(word) is False and re.match('^[a-zA-Z ]*$',word)] ))

print(non_dict_words)

0 个答案:

没有答案