标签: python nlp nltk pypdf2
我一直在使用PyPDF2从PDF中提取文本。然而,它似乎在单词之间输入错误的空白区域。有没有人知道如何避免这种情况,或者事后清理它?这是一个例子:
'在1113 York Avenue Realty提交的申请中 公司,L.L.C。和第60街Devel opment LLC根据章节 “纽约市宪章”第197-c条和第201条修正案 分区图,第8c和8d节:'
这里“发展”拼写为“开发”,“the”拼写为“th e”。我想纠正这个。
这是PDF。示例文本来自第一页上的列表项目编号1.