我正在尝试使用pdfquery库在pdf的所需bbox中返回文本。
import pdfquery
pdf = pdfquery.PDFQuery("C:/Users/tyler.cowan/Desktop/PDF Miner/test.pdf")
test = pdf.extract([
('UWI/API', 'LTTextLineHorizontal:in_bbox("35.28,700.56,127.44,717.84")'),
])
print(test)
我首先从返回的页面的左上角定义了bbox
{'UWI/API': [<LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>]}
然后我继续从页面左下角定义bbox并返回类似的内容。然后我继续定义一个包含整个页面8.5“x 11”的bbox,并返回更多的值而不是所有文本。我在这里做错了什么,我跟着“快速入门”下的Documentation。我正在使用python 2.7
答案 0 :(得分:0)
在批量数据抓取下,它在该页面上稍微说了一下:
(以(&#39; with_formatter&#39;,&#39; text&#39;)开头通常很有帮助,因此您可以获得“Michaels”而非[&lt;& #39; LTTextLineHorizontal&gt;]。请参阅下面的特殊关键字了解更多信息。)