如何在PDFPlumber库中使用page.filter(test_function)?

时间:2018-11-03 08:30:21

标签: python pdf pdf-parsing pdf-extraction

我正在尝试删除pdf页面中的表格,并且为此尝试使用 page.filter()函数,这里我有表格 bbox坐标我正在尝试比较对象坐标是否在表格坐标内。 但是我找不到过滤器功能的任何示例用法。

这是documentation link

我以这种方式尝试过:

def filter_func(object):
  #some logic to find the coordinates inside boundary or not

new_page = page.filter(lambda x: x if filter_func(x) else '')

但不幸的是,这种用法无法正常工作,请帮助了解如何使用page.filter函数

1 个答案:

答案 0 :(得分:0)

发现这是可行的:

def filter_func(object):
 #some logic to find the coordinates inside boundary or not

new_page = page.filter(filter_func)

page.filter是一个生成器,仅在使用new_page时执行