我试图找到使用python在不同书籍中出现某些单词的频率。为此,我试图找到每个单词周围的边界框。
输入: - https://www.dropbox.com/s/ib74y9wh2vrxlwi/textin.jpg
以及我在执行binarisation和其他形态操作以检测边界框后得到的输出: - https://www.dropbox.com/s/9q4x61dyvstu5ub/textout.png
我的问题是, 我需要使用pytesser执行ocr。我目前的实施非常脏。我目前正在将检测到的每个边界框保存到小的png文件中。然后分别运行pytesser的代码,循环遍历包含单词的每个小图像。这个过程困扰着我的系统。
是否有其他方法可以直接将我的图像(由边界框检测到)直接输入pytesser而不先保存它们?
我的代码运行后,我有一个544的列表(在这个例子中)绑定框像
[minrow, mincol, maxrow, maxcol].