我正在使用Camelot读取完整的PDF,并从每个PDF中提取大约112个属性。
我使用表格区域提取属性
test_variable = camelot.read_pdf(filename, flavor='stream',
table_areas=['38, 340 ,50, 328'])
问题是在所有文档中,同一属性的表区域不是恒定的。有时,我会在另一个文档的x或y坐标上找到同一个属性,但位于x或y坐标的下方几个像素。
test_variable = camelot.read_pdf(filename, flavor='stream',
table_areas=['38,350,50,338'])
是否有一种方法可以从同一区域获取确切的属性,而与提取任何文档无关?
答案 0 :(得分:2)
也许table_regions选项(在0.7中引入)可以为您提供帮助。
https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-table-regions
“指定table_regions时,Camelot将仅分析指定的区域以查找表。”
您可以定义一个较大的table_regions区域,而Camelot将在该区域中搜索表。
答案 1 :(得分:1)