使用PyPDF2清理(或避免)额外的空白

时间:2018-06-09 16:32:32

标签: python nlp nltk pypdf2

我一直在使用PyPDF2从PDF中提取文本。然而,它似乎在单词之间输入错误的空白区域。有没有人知道如何避免这种情况,或者事后清理它?这是一个例子:

  

'在1113 York Avenue Realty提交的申请中   公司,L.L.C。和第60街Devel opment LLC根据章节   “纽约市宪章”第197-c条和第201条修正案   分区图,第8c和8d节:'

这里“发展”拼写为“开发”,“the”拼写为“th e”。我想纠正这个。

这是PDF。示例文本来自第一页上的列表项目编号1.

0 个答案:

没有答案