我想用Tesseract读取一个特定的字符序列,如下所示: Tesseract OCR: is it possible to force a specific pattern?
我在Tesseract中使用模式\d\d\d\A\A
尝试了bazaar匹配模式,并且ocr仍然识别其他不匹配的单词。
我试过使用" tessedit_char_whitelist"参数,但我不能选择那个字符的位置。
tesseract image.jpg result -l eng bazaar
我有这样的信息:请在模式的开头提供至少4个具体字符
无效的用户模式
\A\A\d\d\d
使用Leptonica的Tesseract开源OCR引擎v3.01
结果:
AB123
ABC12
A1234
12345
ABCD1
所以这是错的,我只想抓住序列" AB123"。
有人可以告诉我为什么我的用户模式文件中的正则表达式没有效果吗?对于配置,我严格遵循市集教程。
答案 0 :(得分:0)
尝试将此模式与量词一起使用。
[a-zA-Z]{2}\d{3}
这应该只覆盖2个字母字符和3个数字。
您之前匹配所有内容的原因是\ w是字母数字。