Question

我用以下图片尝试了以下命令：

$ tesseract image.png output tessedit_char_whitelist=ʌəɑɪʊɔæɜʒʃʧθŋʤð

输出结果为：

read_params_file: Can't open tessedit_char_whitelist=ʌəɑɪʊɔæɜʒʃʧθŋʤð
Tesseract Open Source OCR Engine v3.05.01 with Leptonica
libpng warning: iCCP: known incorrect sRGB profile

还尝试传递具有相同IPA字符的文件list.txt

read_params_file: Can't open tessedit_char_whitelist=list.txt
Tesseract Open Source OCR Engine v3.05.01 with Leptonica
libpng warning: iCCP: known incorrect sRGB profile

Answer 1

这可能无法直接为您的问题提供答案，但希望提供一些信息以继续前进。

对于OCR IPA符号的tesseract，它需要具有该语言的trained data文件，例如。 ipa.traineddata。（参见当前语言数据文件here。）

如果您自己准备了经过IPA培训的数据文件，请在命令行中使用-l LANG[+LANG]语言选项。对于配置变量，需要特定为-c VAR=VALUE。

以下是示例命令行。第一个指定使用IPA与白名单。第二个只是使用IPA尽可能多地检测ipa.traineddata数据文件中的所有IPA符号。

$ tesseract image.png output -l ipa -c tessedit_char_whitelist=ʌəɑɪʊɔæɜʒʃʧθŋʤð

$ tesseract image.png output -l ipa

如果您计划构建和培训自己的IPA数据文件，可以查看Data File和Training-Tesseract-3.00-3.02。

如何让tesseract-ocr识别IPA字母表中的章程？

1 个答案: