Tesseract框文件中的数字是什么?

时间:2018-11-19 23:16:25

标签: image-processing ocr tesseract

为了我的爱,我找不到关于Tesseract框文件如何工作以及坐标代表什么的文档。

例如,我得到:

T 2768 165 2789 191 0

第一个标记显然是字符。我知道Tesseract使用左下角。因此,2768应该是底部。第四令牌(2789)似乎是顶部。我不了解第三个(165),第五个(191)和第六个(0)标记是什么。 165191作为左/右坐标是不正确的,0我不知道它指的是什么。

有人可以帮助我吗?是这些像素坐标,还是我必须考虑图像的DPI?

谢谢!

1 个答案:

答案 0 :(得分:1)

根据documentation,每行的格式为

<symbol> <left> <bottom> <right> <top> <page>

位置:

  • <symbol>是字符,例如a或b。
  • <left> <bottom> <right> <top>是适合页面上字符的矩形坐标。请注意,Tesseract使用的坐标系在图像的左下角有(0,0)!
  • <page>仅在使用多页TIFF文件时才有意义。在所有其他情况下,只需在此处输入0。

所以在您的情况下

T 2768 165 2789 191 0

将是

  • 字符:T
  • 左:2768
  • 底部:165
  • 右:2789
  • 顶部:191
  • 页面:0