我尝试使用tess-two,这是Android的Tesseract工具的一个分支。我想在tesseract中打开hocr
输出,从link开始,我尝试将变量tessedit_create_hocr
设置为true,但我看不到输出中的特殊值。这是我的尝试:
baseApi.init(FileUtil.getAppFolder(), "eng", TessBaseAPI.OEM_TESSERACT_CUBE_COMBINED);
baseApi.setVariable("tessedit_create_hocr", "1")
baseApi.setImage(bitmap);
String recognizedText = baseApi.getUTF8Text();
有人告诉hocr
输出应该在config文件夹中或在包含图像的文件夹中,但是我没有看到任何内容。任何我不知道如何配置文件名和特定输出的位置。
另一件事:有没有办法将配置文件应用到Android的Tesseract工具?我将配置文件放入 tessdata / config文件夹,但没有任何反应。如何告诉tesseract
应该读取这些配置文件?似乎他们没有足够的Android文档。
更新:感谢@nguyenq
,现在我可以获得HOCR
个数据。这是我的尝试:
jstring Java_com_googlecode_tesseract_android_TessBaseAPI_nativeGetHOCRText(JNIEnv *env,
jobject thiz, jint page) {
native_data_t *nat = get_native_data(env, thiz);
char *text = nat->api.GetHOCRText(page);
jstring result = env->NewStringUTF(text);
free(text);
return result;
}
答案 0 :(得分:3)
显然,tess-two
未实现所有TessBaseAPI
,因为它不包含对原生GetHOCRText
方法的支持。您可能必须自己扩展包装器以访问所需的功能。
配置文件用于命令行执行。或者,您可以通过公开的API方法setVariable
设置必要的变量。