Pytesser

时间:2016-01-22 14:49:20

标签: python python-imaging-library tesseract python-tesseract pytesser

我正在开展一个项目,要求我从商品交易所获得价格。不幸的是,交易所没有网络服务或其他插件可供我从交易屏幕上获取价格。

我认为我可以自动制作价格截图并将所有价格分成单个图像。之后,我使用Pytesser V 0.0.1库为Tesseract 3.0.2和Python v2.7中的Pillow 3.1.0进行处理。但是,图像到文本的转换(通过image_to_string函数)是戏剧性的,因为在大多数情况下,0变成o或5成为s,有时转换是随机的,这使得很难仅仅替换这些字符。我已经将图像调整为更大的尺寸并使用了反锯齿,但结果并没有变得更好。有没有办法将字符集限制为仅数字和小数点?如何改善转换质量?

也许我的方法过于繁琐,你们知道更好的方法吗?感谢您的帮助:)

1 个答案:

答案 0 :(得分:0)

  

有没有办法将字符集限制为只有数字和一个点   小数?

是的!使用包pyslibtesseract

from pyslibtesseract import TesseractConfig, PageSegMode
config_line = TesseractConfig(psm=PageSegMode.PSM_SINGLE_LINE)
config_line.add_variable('tessedit_char_whitelist', '0123456789.')
  

如何改善转换质量?

您需要使用OpenCV来提高图像质量。