PyTesseract 得到几个单词的边界框

时间:2021-04-06 18:10:52

标签: label python-tesseract

我正在使用 pytesseract 和内置函数 image_2_data 来获取图像中单词的边界框。

这很有效,但我的数据中的每个单词都有一个边界框。我想要的是所有彼此靠近的单词的边界框,以便我稍后可以更好地标记它。

所以,我所拥有的信息是“2014 年 2 月 19 日”。 image_to_data 给了我:

onResume

我需要的是:

"bbox": [1208, 772, 1246, 794], "text": "19."
"bbox": [1261, 771, 1363, 794], "text": "Februar"
"bbox": [1375, 772, 1443, 794], "text": "2014"

由于我的图像中有很多文字,因此对以后的所有步骤进行排序确实很有帮助。

预先感谢并致以亲切的问候!

编辑:这是我的意思的一个例子。

enter image description here

0 个答案:

没有答案
相关问题