我知道
pdftotext -bbox foobar.pdf
创建一个包含
等内容的HTML文件<word xMin="301.703800" yMin="104.483700" xMax="309.697000" yMax="115.283700">is</word>
<word xMin="313.046200" yMin="104.483700" xMax="318.374200" yMax="115.283700">a</word>
<word xMin="321.603400" yMin="104.483700" xMax="365.509000" yMax="115.283700">universal</word>
<word xMin="368.858200" yMin="104.483700" xMax="384.821800" yMax="115.283700">file</word>
<word xMin="388.291000" yMin="104.483700" xMax="420.229000" yMax="115.283700">format</word>
因此每个单词都有一个边界框。
相反,Python包PDFminer似乎只能给出一个文本块的位置(参见example)。
如何在Python中获取每个单词的边界框?