Question

我正在使用Camelot读取完整的PDF，并从每个PDF中提取大约112个属性。

我使用表格区域提取属性

 test_variable = camelot.read_pdf(filename, flavor='stream', 
                 table_areas=['38, 340 ,50, 328'])

问题是在所有文档中，同一属性的表区域不是恒定的。有时，我会在另一个文档的x或y坐标上找到同一个属性，但位于x或y坐标的下方几个像素。

 test_variable = camelot.read_pdf(filename, flavor='stream', 
                 table_areas=['38,350,50,338'])

是否有一种方法可以从同一区域获取确切的属性，而与提取任何文档无关？

Answer 1

也许table_regions选项（在0.7中引入）可以为您提供帮助。

“指定table_regions时，Camelot将仅分析指定的区域以查找表。”

您可以定义一个较大的table_regions区域，而Camelot将在该区域中搜索表。

Answer 2

Camelot使用opencv的坐标系，并且尺寸可以使用opencv的.shape

获得

请参阅骆驼图像处理here的源代码和opencv的文档here