Question

在tesseract中使用GetHOCRText（0）方法我能够在html中检索文本并在webview中呈现html我能够获得文本但是图像中文本的位置与输出不同。任何想法都非常有用。

 tesseract->SetInputName("word");
tesseract->SetOutputName("xyz");
tesseract->Recognize(NULL);


char *utf8Text=tesseract->GetHOCRText(0);

This the image i'm using for tesseract

并输出图片 enter image description here

Answer 1

GetBoxText()方法将返回数组中每个字符的确切位置。

char *boxtext = _tesseract->GetBoxText(0);
NSString* aBoxText = [NSString stringWithUTF8String:boxtext];

Answer 2

如果你有特定的输出，你应该为每个单词都有一个标记。这些标签应该具有class =“ocrx_word”和name =“bbox x1 y1 x2 y2”，其中x和y是单词周围的边界框的左上角和右下角。我认为不可能自动使用此信息来格式化文本文档 - 需要将像素差异转换为标签/空格的数量。但是，您应该能够在给定位置呈现文本。

从tesseract中的图像中获取文本的确切位置

2 个答案: