在tesseract中使用GetHOCRText(0)方法我能够在html中检索文本并在webview中呈现html我能够获得文本但是图像中文本的位置与输出不同。任何想法都非常有用。
tesseract->SetInputName("word");
tesseract->SetOutputName("xyz");
tesseract->Recognize(NULL);
char *utf8Text=tesseract->GetHOCRText(0);
并输出图片
答案 0 :(得分:1)
GetBoxText()
方法将返回数组中每个字符的确切位置。
char *boxtext = _tesseract->GetBoxText(0);
NSString* aBoxText = [NSString stringWithUTF8String:boxtext];
答案 1 :(得分:1)
如果你有特定的输出,你应该为每个单词都有一个标记。这些标签应该具有class =“ocrx_word”和name =“bbox x1 y1 x2 y2”,其中x和y是单词周围的边界框的左上角和右下角。我认为不可能自动使用此信息来格式化文本文档 - 需要将像素差异转换为标签/空格的数量。但是,您应该能够在给定位置呈现文本。