Question

我有一个基于Tesseract的非常简单的OCR应用程序。认可后步骤，我还提供了允许更正的用户验证步骤以防OCR错误。为了改善用户界面，我打算画一个原始输入图像上OCR编辑字符顶部的矩形，并将其与OCR输出并排放置。为此，我需要识别字符的坐标。

我试过这样的事情，但它似乎给我带来了胡言乱语：

   ETEXT_DESC output;
   tess->Recognize(&output);
   text = tess->GetUTF8Text();

现在，如果我访问output-＆gt; count，它会给我一些超过10,000的值，这显然是错误的，因为整个图像只有20个左右的字符。

我是否在正确的轨道上？我能指点一下吗？

Answer 1

获取盒子的坐标可能会有所帮助。尝试tesseract的可执行文件。使用命令

“tesseract.exe [image] [output] makebox”

毕竟你得到每个角色的坐标，每行一个。然后你就可以比较了。

Answer 2

tesseract可执行文件有一个 hocr 选项，用于以 html 格式输出识别的字符及其坐标。要以编程方式进行此操作，FAQ表示要引用baseapi.h。