我正在使用tesseract从image中提取一堆稀疏数字,用于我正在研究的扑克应用程序。我对设置进行了一些调整,并获得了不错的结果,但是仍然缺少我需要的图像中的几个数字。具体来说,我缺少所有玩家编号(小圆圈中的1-6标签)和小的$值($ 0.05,$ 0.15,$ 0.37等)。
任何有关预处理的建议我都可以改善,否则将改变tesseract的设置。
以下代码:
from PIL import Image
import pytesseract
img = Image.open(path).convert('L')
print(pytesseract.image_to_string(img, lang='eng', \
config='--psm 11 -c tessedit_char_whitelist=0123456789$.'))
并输出:
$ python test.py
08
$0.02$0.05
$1.50
$4.12
$2.56
3
$2.39
$4.33
$1.52