使用OCR引擎tesseract无法理解提取文档中的坐标

时间:2013-08-31 16:38:06

标签: ocr tesseract text-extraction hocr

我从tesseract中提取了一个图像文档并且已经提取成功了。但我无法理解提取文档的坐标。

问题描述: -

它显示坐标,但让我知道这些坐标代表像素或其他东西。这些是四个像 title =" bbox 10 13 43 46" ,所以10,13 43和46是什么位置

提取后的完整代码

   <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<title>
</title>
<meta http-equiv="Content-Type" content="text/html;charset=utf-8" />
<meta name='ocr-system' content='tesseract'/>
</head>
<body>
<div class='ocr_page' id='page_1' title='image "D:\ABC.tif"; bbox 0 0 464 101'>
    <div class='ocr_carea' id='block_1_1' title="bbox 10 13 330 55">
    <p 1class='ocr_par'>
        <span class='ocr_line' id='line_1_1' title="bbox 10 13 330 55">
            <span class='ocr_word' id='word_1_1' title="bbox 10 13 43 46">
                <span class='ocrx_word' id='xword_1_1' title="x_wconf -1"><strong>hi</strong></span>
            </span> 
            <span class='ocr_word' id='word_1_2' title="bbox 148 13 268 47">
                <span class='ocrx_word' id='xword_1_2' title="x_wconf -1"><strong>whats</strong></span>
            </span> 
            <span class='ocr_word' id='word_1_3' title="bbox 283 22 330 55">
                <span class='ocrx_word' id='xword_1_3' title="x_wconf -1"><strong>up</strong></span>
            </span>
        </span>
    </p>
    </div>
</div>
</body>
</html>

3 个答案:

答案 0 :(得分:10)

对于那些仍然想知道坐标系如何工作的人来说,我终于找到了它,这就像

10 13 43 46 startx,starty,endx,endy

如果你想找到单词的宽度和高度

width = endx - startx,height = endy - starty

将字符串拆分为&#39; &#39;然后消除bbox,然后你去..

答案 1 :(得分:3)

这些数字应该显示一个方框(一个矩形)的角落位置,只有一个字。

这是hocr协议。

根据你的文件tesseract认出句子“你好吗”

答案 2 :(得分:3)

也许这将有助于将来的某些人。我认为这个形象不言而喻。 您可以根据这些值计算高度或顶部距离(对于css)(例如,height = y1-y0) enter image description here