pdfquery不返回BBOX中的值

时间:2017-07-18 16:42:47

标签: python pdf pyquery

我正在尝试使用pdfquery库在pdf的所需bbox中返回文本。

import pdfquery

pdf = pdfquery.PDFQuery("C:/Users/tyler.cowan/Desktop/PDF Miner/test.pdf")

test =  pdf.extract([
      ('UWI/API', 'LTTextLineHorizontal:in_bbox("35.28,700.56,127.44,717.84")'),
 ])

print(test)

我首先从返回的页面的左上角定义了bbox

{'UWI/API': [<LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>]}

然后我继续从页面左下角定义bbox并返回类似的内容。然后我继续定义一个包含整个页面8.5“x 11”的bbox,并返回更多的值而不是所有文本。我在这里做错了什么,我跟着“快速入门”下的Documentation。我正在使用python 2.7

1 个答案:

答案 0 :(得分:0)

在批量数据抓取下,它在该页面上稍微说了一下:

  

(以(&#39; with_formatter&#39;,&#39; text&#39;)开头通常很有帮助,因此您可以获得“Michaels”而非[&lt;& #39; LTTextLineHorizo​​ntal&gt;]。请参阅下面的特殊关键字了解更多信息。)