OCR程序经常错误地将大写字母O识别为零,反之亦然。例如,他们可能会将Over识别为0或更好。
我尝试添加
REP 0 O
REP 1 l
到词缀文件,但它没有工作,因为数字显然被认为是词边界。
(我查看了hunspell man page,但我无法弄清楚需要更改哪些设置以允许单词中的数字。)
答案 0 :(得分:1)
从联机帮助页:
REP替换什么 此表指定首先尝试的修改。第一个REP是 该表的标题和一个或多个REP数据行 跟着它。有了这张桌子,Hunspell可以提出正确的建议 形式错误的典型拼写错误形式 与正确表格相差不超过1个字母。搜索 string支持正则表达式边界符号(^和$)。例如 要处理的可能的英语替换表定义 拼写错误的辅音:
REP 5
REP f ph
REP ph f
REP tion$ shun
REP ^cooccurr co-occurr
REP ^alot$ a_lot
您是否添加了第一行REP +替换次数?