从tesseract中的图像中获取文本的确切位置

时间:2012-09-05 10:04:45

标签: iphone tesseract

在tesseract中使用GetHOCRText(0)方法我能够在html中检索文本并在webview中呈现html我能够获得文本但是图像中文本的位置与输出不同。任何想法都非常有用。

 tesseract->SetInputName("word");
tesseract->SetOutputName("xyz");
tesseract->Recognize(NULL);


char *utf8Text=tesseract->GetHOCRText(0);

This the image i'm using for tesseract

并输出图片enter image description here

2 个答案:

答案 0 :(得分:1)

GetBoxText()方法将返回数组中每个字符的确切位置。

char *boxtext = _tesseract->GetBoxText(0);
NSString* aBoxText = [NSString stringWithUTF8String:boxtext];

答案 1 :(得分:1)

如果你有特定的输出,你应该为每个单词都有一个标记。这些标签应该具有class =“ocrx_word”和name =“bbox x1 y1 x2 y2”,其中x和y是单词周围的边界框的左上角和右下角。我认为不可能自动使用此信息来格式化文本文档 - 需要将像素差异转换为标签/空格的数量。但是,您应该能够在给定位置呈现文本。