用新语言培训tesseract,其脚本几乎与越南语相似

时间:2019-03-28 17:20:44

标签: python image-processing ubuntu-16.04 ocr tesseract

我正在尝试训练Tesseract中目前不存在的语言。文字/字母几乎与越南语中的相似。

在Ubuntu 16.04 LTS,tesseract版本3.04.01(与

一起安装)上使用python
sudo apt install tesseract-ocr
sudo apt-get install tesseract-ocr-eng
sudo apt-get install tesseract-ocr-vie

,并且非常适用于英语)

我已经使用以下命令进行了测试:

tesseract procssed_image.png stdout -l vie

除某些不是越南语言的字符外,输出正确率为90%。

然后, 我创建了 bazaar 文件(/ usr / share / tesseract-ocr / tessdata / configs /):

load_system_dawg     F
load_freq_dawg       F
user_words_suffix    user-words

使用我的自定义单词列表(大约150个单词,每行一个单词)创建了一个文本文件,并将其命名为vie.user-words(/ usr / share / tesseract-ocr / tessdata /)

然后运行以下命令:

tesseract procssed_image.png stdout -l vie bazaar

结果相同。

然后当我尝试使用:

tesseract procssed_image.png stdout -l vie bazaar -c tessedit_char_whitelist=abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789àâêî

tessedit_char_whitelist <-在这里,我试图将以我的语言显示的所有字符列表以及图像文件中存在的其他符号放入列表。

它显示以下错误并打印输出(结果与之前相同)

read_params_file: Can't open c
read_params_file: Can't open tessedit_char_whitelist=abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789àâêî

请告诉我如何解决此问题并提高知名度?谢谢您的宝贵时间。

0 个答案:

没有答案