如何让tesseract-ocr识别IPA字母表中的章程?

时间:2017-09-29 17:35:38

标签: macos tesseract

我用以下图片尝试了以下命令:

$ tesseract image.png output tessedit_char_whitelist=ʌəɑɪʊɔæɜʒʃʧθŋʤð

enter image description here

输出结果为:

read_params_file: Can't open tessedit_char_whitelist=ʌəɑɪʊɔæɜʒʃʧθŋʤð
Tesseract Open Source OCR Engine v3.05.01 with Leptonica
libpng warning: iCCP: known incorrect sRGB profile

还尝试传递具有相同IPA字符的文件list.txt

read_params_file: Can't open tessedit_char_whitelist=list.txt
Tesseract Open Source OCR Engine v3.05.01 with Leptonica
libpng warning: iCCP: known incorrect sRGB profile

1 个答案:

答案 0 :(得分:1)

这可能无法直接为您的问题提供答案,但希望提供一些信息以继续前进。

对于OCR IPA符号的tesseract,它需要具有该语言的trained data文件,例如。 ipa.traineddata。 (参见当前语言数据文件here。)

如果您自己准备了经过IPA培训的数据文件,请在命令行中使用-l LANG[+LANG]语言选项。对于配置变量,需要特定为-c VAR=VALUE

以下是示例命令行。第一个指定使用IPA与白名单。第二个只是使用IPA尽可能多地检测ipa.traineddata数据文件中的所有IPA符号。

$ tesseract image.png output -l ipa -c tessedit_char_whitelist=ʌəɑɪʊɔæɜʒʃʧθŋʤð

$ tesseract image.png output -l ipa

如果您计划构建和培训自己的IPA数据文件,可以查看Data FileTraining-Tesseract-3.00-3.02