文本框文件Tesseract 4.0

时间:2018-11-26 19:45:07

标签: ocr tesseract

我认为我必须从根本上误解某些内容,但是Making Box Files 4.0的文档指出:

  

LSTM 4.0alpha所需的格式仍然是tiff / box文件对,只是这些框只需要覆盖文本行而不是单个字符即可。

但是,它随后链接到具有逐个字符框的Box File,例如:

T 112 4663 140 4696 0
e 140 4662 160 4686 0
s 163 4662 179 4686 0
s 182 4661 198 4686 0
e 200 4661 220 4685 0
r 221 4662 238 4685 0
a 239 4661 260 4685 0
c 261 4661 281 4685 0
t 281 4661 296 4691 0

有人可以解释为什么这似乎有差异吗?

2 个答案:

答案 0 :(得分:0)

有些制表符(\ t)标记行尾。如果您进一步阅读该文档,则仅说明该内容。

T 112 4663 140 4696 0
e 140 4662 160 4686 0
s 163 4662 179 4686 0
s 182 4661 198 4686 0
e 200 4661 220 4685 0
r 221 4662 238 4685 0
a 239 4661 260 4685 0
c 261 4661 281 4685 0
t 281 4661 296 4691 0
  296 4661 311 4696 0
O 311 4661 344 4696 0
C 347 4661 377 4696 0
R 378 4661 414 4695 0
     414 4694 415 4695 0
A 110 4575 146 4609 0
b 145 4574 167 4610 0
o 171 4573 193 4598 0
u 195 4573 219 4596 0
t 220 4573 234 4603 0
     234 4602 235 4603 0

答案 1 :(得分:0)

LSTM培训实际上并不需要单独的char坐标。

问题是由于tesseract Wiki old textline box example file中的措辞不太好,以及“ Tesseract4接受多种格式的盒文件”引起的。

有关@shreeshrii提供的详细信息和示例,请参见#2357