是否可以使用Python获取每个单词的边界框?

时间:2017-07-13 13:41:58

标签: python pdf

我知道

pdftotext -bbox foobar.pdf

创建一个包含

等内容的HTML文件
<word xMin="301.703800" yMin="104.483700" xMax="309.697000" yMax="115.283700">is</word>
<word xMin="313.046200" yMin="104.483700" xMax="318.374200" yMax="115.283700">a</word>
<word xMin="321.603400" yMin="104.483700" xMax="365.509000" yMax="115.283700">universal</word>
<word xMin="368.858200" yMin="104.483700" xMax="384.821800" yMax="115.283700">file</word>
<word xMin="388.291000" yMin="104.483700" xMax="420.229000" yMax="115.283700">format</word>

因此每个单词都有一个边界框。

相反,Python包PDFminer似乎只能给出一个文本块的位置(参见example)。

如何在Python中获取每个单词的边界框?

0 个答案:

没有答案