应用错误收集

尝试使用Slate库和PyPDF2从Python中提取PDF文本。不幸的是，一些PDF正在输出，并且多个单词被合并/连接在一起。这似乎是间歇性地发生的，例如对于某些PDF，正确地用它们之间的空格提取单词，而其他单词则没有。

包含未正确提取单词的PDF的一个示例，可供下载（因此不允许我上传）here。

的输出

slate.PDF(open(name, 'rb') ).text()

是（或至少是一个片段）：

，notonadhocprocedures，andcanbeusedwithdatacollectedatmul-tiplespatialresolutions（Kulldorff1999）.Ifdataontheabundanceofataxonovertimeareavailable，thesedatacanbeincorporatedintoanSTPSanalysistoincreasethesensitivityandreliabilityofthemodeltodetectsightingclusters，

当然第一个以逗号分隔的标记应该是not on adhoc procedures

有人知道为什么会这样，或者更好地了解用于PDF文本提取的库吗？

感谢您的帮助！

Python Slate Library：PDF文本提取连接词

0 个答案: