我正在尝试从PDF中提取一些条目,但是格式不好,使得像普通文档一样简单地解析很不方便。文本没有任何一致的位置,因此每个条目都是唯一的加扰,没有一致的模式。我只想要条目名称和右侧的信息,而不是字段名称或描述。
我尝试使用PyPDF2模块尝试标题和布局信息,但是除了基本的作者信息外,似乎没有其他PDF元数据。
我的想法是使用Google Cloud Vision API来转录文本,但这带来了自动定位的问题。
有没有人知道一种更好的方法,或者,如果不是,那么,如何执行Cloud Vision API的定位?