Question

我认为我必须从根本上误解某些内容，但是Making Box Files 4.0的文档指出：

LSTM 4.0alpha所需的格式仍然是tiff / box文件对，只是这些框只需要覆盖文本行而不是单个字符即可。

但是，它随后链接到具有逐个字符框的Box File，例如：

T 112 4663 140 4696 0
e 140 4662 160 4686 0
s 163 4662 179 4686 0
s 182 4661 198 4686 0
e 200 4661 220 4685 0
r 221 4662 238 4685 0
a 239 4661 260 4685 0
c 261 4661 281 4685 0
t 281 4661 296 4691 0

有人可以解释为什么这似乎有差异吗？

Answer 1

有些制表符（\ t）标记行尾。如果您进一步阅读该文档，则仅说明该内容。

T 112 4663 140 4696 0
e 140 4662 160 4686 0
s 163 4662 179 4686 0
s 182 4661 198 4686 0
e 200 4661 220 4685 0
r 221 4662 238 4685 0
a 239 4661 260 4685 0
c 261 4661 281 4685 0
t 281 4661 296 4691 0
  296 4661 311 4696 0
O 311 4661 344 4696 0
C 347 4661 377 4696 0
R 378 4661 414 4695 0
     414 4694 415 4695 0
A 110 4575 146 4609 0
b 145 4574 167 4610 0
o 171 4573 193 4598 0
u 195 4573 219 4596 0
t 220 4573 234 4603 0
     234 4602 235 4603 0

Answer 2

LSTM培训实际上并不需要单独的char坐标。

问题是由于tesseract Wiki old textline box example file中的措辞不太好，以及“ Tesseract4接受多种格式的盒文件”引起的。

有关@shreeshrii提供的详细信息和示例，请参见#2357。

文本框文件Tesseract 4.0

2 个答案: