Tesseract setVariable白名单适用于英语,例如我用它来识别图像中的数字和字母(不包括特殊字符& * ^%!等)
_ocr.SetVariable("tessedit_char_whitelist",
"0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ");
但我不能对泰语做同样的事情
_ocr.SetVariable("tessedit_char_whitelist","0123456789กขคงจฉ");
有不同的原则吗?因为这不起作用。我没有收到所有确定的字符,而只收到输出中的数字,tesseract忽略了我放入白名单的所有泰语字母。
如何正确传递此变量?
答案 0 :(得分:2)
您可能需要首先使用泰语语言包...请参阅此处的下载列表https://code.google.com/p/tesseract-ocr/downloads/list
然后您需要在代码中将“eng”替换为“tha”以将新语言数据用于OCR