Python Slate Library:PDF文本提取连接词

时间:2016-05-17 14:43:31

标签: python pdf extraction pypdf slate

尝试使用Slate库和PyPDF2从Python中提取PDF文本。不幸的是,一些PDF正在输出,并且多个单词被合并/连接在一起。这似乎是间歇性地发生的,例如对于某些PDF,正确地用它们之间的空格提取单词,而其他单词则没有。

包含未正确提取单词的PDF的一个示例,可供下载(因此不允许我上传)here

的输出
slate.PDF(open(name, 'rb') ).text()

是(或至少是一个片段):

  

,notonadhocprocedures,andcanbeusedwithdatacollectedatmul-tiplespatialresolutions(Kulldorff1999).Ifdataontheabundanceofataxonovertimeareavailable,thesedatacanbeincorporatedintoanSTPSanalysistoincreasethesensitivityandreliabilityofthemodeltodetectsightingclusters,

当然第一个以逗号分隔的标记应该是not on adhoc procedures

有人知道为什么会这样,或者更好地了解用于PDF文本提取的库吗?

感谢您的帮助!

0 个答案:

没有答案