我有一个基于Tesseract的非常简单的OCR应用程序。认可后 步骤,我还提供了允许更正的用户验证步骤 以防OCR错误。为了改善用户界面,我打算画一个 原始输入图像上OCR编辑字符顶部的矩形, 并将其与OCR输出并排放置。为此,我需要 识别字符的坐标。
我试过这样的事情,但它似乎给我带来了胡言乱语:
ETEXT_DESC output;
tess->Recognize(&output);
text = tess->GetUTF8Text();
现在,如果我访问output-> count,它会给我一些超过10,000的值, 这显然是错误的,因为整个图像只有20个左右的字符。
我是否在正确的轨道上?我能指点一下吗?
答案 0 :(得分:6)
获取盒子的坐标可能会有所帮助。 尝试tesseract的可执行文件。使用命令
“tesseract.exe [image] [output] makebox”
毕竟你得到每个角色的坐标,每行一个。然后你就可以比较了。
答案 1 :(得分:1)
tesseract
可执行文件有一个 hocr 选项,用于以 html 格式输出识别的字符及其坐标。要以编程方式进行此操作,FAQ表示要引用baseapi.h
。