我用以下图片尝试了以下命令:
$ tesseract image.png output tessedit_char_whitelist=ʌəɑɪʊɔæɜʒʃʧθŋʤð
输出结果为:
read_params_file: Can't open tessedit_char_whitelist=ʌəɑɪʊɔæɜʒʃʧθŋʤð
Tesseract Open Source OCR Engine v3.05.01 with Leptonica
libpng warning: iCCP: known incorrect sRGB profile
还尝试传递具有相同IPA字符的文件list.txt
read_params_file: Can't open tessedit_char_whitelist=list.txt
Tesseract Open Source OCR Engine v3.05.01 with Leptonica
libpng warning: iCCP: known incorrect sRGB profile
答案 0 :(得分:1)
这可能无法直接为您的问题提供答案,但希望提供一些信息以继续前进。
对于OCR IPA符号的tesseract,它需要具有该语言的trained data
文件,例如。 ipa.traineddata
。 (参见当前语言数据文件here。)
如果您自己准备了经过IPA培训的数据文件,请在命令行中使用-l LANG[+LANG]
语言选项。对于配置变量,需要特定为-c VAR=VALUE
。
以下是示例命令行。第一个指定使用IPA与白名单。第二个只是使用IPA尽可能多地检测ipa.traineddata
数据文件中的所有IPA符号。
$ tesseract image.png output -l ipa -c tessedit_char_whitelist=ʌəɑɪʊɔæɜʒʃʧθŋʤð
$ tesseract image.png output -l ipa
如果您计划构建和培训自己的IPA数据文件,可以查看Data File和Training-Tesseract-3.00-3.02。