尝试使用Slate库和PyPDF2从Python中提取PDF文本。不幸的是,一些PDF正在输出,并且多个单词被合并/连接在一起。这似乎是间歇性地发生的,例如对于某些PDF,正确地用它们之间的空格提取单词,而其他单词则没有。
包含未正确提取单词的PDF的一个示例,可供下载(因此不允许我上传)here。
的输出slate.PDF(open(name, 'rb') ).text()
是(或至少是一个片段):
,notonadhocprocedures,andcanbeusedwithdatacollectedatmul-tiplespatialresolutions(Kulldorff1999).Ifdataontheabundanceofataxonovertimeareavailable,thesedatacanbeincorporatedintoanSTPSanalysistoincreasethesensitivityandreliabilityofthemodeltodetectsightingclusters,
当然第一个以逗号分隔的标记应该是not on adhoc procedures
有人知道为什么会这样,或者更好地了解用于PDF文本提取的库吗?
感谢您的帮助!