使用tesserocr时,如何将Tesseract识别的字符集限制为仅数字?
我从this知道,如果我使用c ++,我可以在配置文件中设置tessedit_char_whitelist,但我不知道Python中tesserocr中的类似方法。
通常,如果读者已经知道用于c ++的Tesseract API,那么tesserocr documentation会提供帮助。由于我不熟悉c ++,我希望避免阅读c ++源代码以便使用tesserocr。
如果有人能给我实际需要在python中编写的内容,或者从配置设置到Python代码的一般规则,这将是很棒的。提前谢谢。
答案 0 :(得分:3)
Tesserocr用作C ++ API,您可以使用函数jest.mock('./store');
设置白名单。
一个例子:
SetVariable
如果您想要另一种更简单且独立于C ++ API的方法,请尝试使用pytesseract模块。
pytesseract的一个例子:
from tesserocr import PyTessBaseAPI
from string import digits
with PyTessBaseAPI() as api:
api.SetVariable('tessedit_char_whitelist', digits)
api.SetImageFile('image.png')
print api.GetUTF8Text() # it will print only digits