从PDF提取格式错误的文本

时间:2019-05-06 01:16:55

标签: python-3.x pdf

我正在尝试从PDF中提取一些条目,但是格式不好,使得像普通文档一样简单地解析很不方便。文本没有任何一致的位置,因此每个条目都是唯一的加扰,没有一致的模式。我只想要条目名称和右侧的信息,而不是字段名称或描述。

An image of the PDF I'm trying to extract data from in the original format

我尝试使用PyPDF2模块尝试标题和布局信息,但是除了基本的作者信息外,似乎没有其他PDF元数据。

我的想法是使用Google Cloud Vision API来转录文本,但这带来了自动定位的问题。

有没有人知道一种更好的方法,或者,如果不是,那么,如何执行Cloud Vision API的定位?

0 个答案:

没有答案