应用错误收集

我知道

pdftotext -bbox foobar.pdf

创建一个包含

等内容的HTML文件

<word xMin="301.703800" yMin="104.483700" xMax="309.697000" yMax="115.283700">is</word>
<word xMin="313.046200" yMin="104.483700" xMax="318.374200" yMax="115.283700">a</word>
<word xMin="321.603400" yMin="104.483700" xMax="365.509000" yMax="115.283700">universal</word>
<word xMin="368.858200" yMin="104.483700" xMax="384.821800" yMax="115.283700">file</word>
<word xMin="388.291000" yMin="104.483700" xMax="420.229000" yMax="115.283700">format</word>

因此每个单词都有一个边界框。

相反，Python包PDFminer似乎只能给出一个文本块的位置（参见example）。

如何在Python中获取每个单词的边界框？

是否可以使用Python获取每个单词的边界框？

0 个答案: