如何更改Hunspell词缀文件以允许单词中的数字?

时间:2016-07-11 12:39:00

标签: numbers letters affix hunspell word-boundary

OCR程序经常错误地将大写字母O识别为零,反之亦然。例如,他们可能会将Over识别为0或更好。

我尝试添加

REP 0 O
REP 1 l

到词缀文件,但它没有工作,因为数字显然被认为是词边界。

(我查看了hunspell man page,但我无法弄清楚需要更改哪些设置以允许单词中的数字。)

1 个答案:

答案 0 :(得分:1)

从联机帮助页:

REP替换什么               此表指定首先尝试的修改。第一个REP是               该表的标题和一个或多个REP数据行               跟着它。有了这张桌子,Hunspell可以提出正确的建议               形式错误的典型拼写错误形式               与正确表格相差不超过1个字母。搜索               string支持正则表达式边界符号(^和$)。例如               要处理的可能的英语替换表定义               拼写错误的辅音:

          REP 5
          REP f ph
          REP ph f
          REP tion$ shun
          REP ^cooccurr co-occurr
          REP ^alot$ a_lot

您是否添加了第一行REP +替换次数?