Tesseract OCR力量模式

时间:2015-08-07 09:33:08

标签: regex ocr tesseract

我想用Tesseract读取一个特定的字符序列,如下所示: Tesseract OCR: is it possible to force a specific pattern?

我在Tesseract中使用模式\d\d\d\A\A尝试了bazaar匹配模式,并且ocr仍然识别其他不匹配的单词。

我试过使用" tessedit_char_whitelist"参数,但我不能选择那个字符的位置。

  • 我启动命令:tesseract image.jpg result -l eng bazaar 我有这样的信息:
  

请在模式的开头提供至少4个具体字符

     

无效的用户模式\A\A\d\d\d

     

使用Leptonica的Tesseract开源OCR引擎v3.01

  • image.jpg:

enter image description here

  • 结果:

    AB123
    ABC12
    A1234
    12345
    ABCD1
    

所以这是错的,我只想抓住序列" AB123"。

有人可以告诉我为什么我的用户模式文件中的正则表达式没有效果吗?对于配置,我严格遵循市集教程。

1 个答案:

答案 0 :(得分:0)

尝试将此模式与量词一起使用。

[a-zA-Z]{2}\d{3}

这应该只覆盖2个字母字符和3个数字。

您之前匹配所有内容的原因是\ w是字母数字。