应用错误收集

This paper中的

the tesseract source提供了对该技术的深入概述。

值得注意的是：

Blob被组织成文本行，行和区域是   分析固定音高或比例文本。

[...]

识别然后以两遍过程进行。在第一关，一个   尝试依次识别每个单词。每个字都是   令人满意的是作为训练数据传递给自适应分类器。该   然后，自适应分类器有机会更准确地识别   文字在页面下方。

[...]

找到文本行后，基线会更加合适   精确地使用二次样条。

[...]

通过将blob分成具有a的组来拟合基线   原始直线基线的合理连续位移。   二次样条适用于人口最多的分区，（假设   通过最小二乘拟合得到基线。

该论文没有明确说明它是否使用了神经网络，但考虑到我可能会说的内容，至少部分是这样。

有关线路查找的更多信息，请参阅 R.史密斯，“通过文本行累积的简单有效的偏斜检测算法”，Proc。第3届国际CONF。 “文献分析与识别”（第2卷），IEEE 1995年，第1145-1148页。

在Google的tesseract-OCR中使用哪种算法进行识别？

1 个答案: