应用错误收集

时间：2017-06-24 07:12:53

标签： ocr tesseract

我正在学习Tesseract OCR并阅读基于此article的article。从第一篇文章：

第一步是自适应阈值处理，它将图像转换为二进制图像。下一步是连接组件分析用于提取字符轮廓。这种方法非常有用因为它用白色文字和黑色背景进行图像的OCR。 Tesseract可能首先提供这种方式处理。然后，轮廓转换为Blob。 Blob被组织成文本行，以及行和分析区域的某些固定区域或等效文本大小

有人能解释什么是Blob吗？

答案 0 :(得分：1)

斑点

扫描图像的孤立的小区域。它由大纲描绘。 Tesseract＆＃39; juggles＆＃39;斑点，看看它们是否可以进一步分裂成能够提高认可信心的东西。有时候，斑点会被合并在一起。如果这给出了更好的结果。例如，请参阅pithsync.cpp。

答案 1 :(得分：1)

通常，斑点（也称为连接分量）是二进制图像中的连接片（即，未被破坏）。换句话说，它是二进制图像中的实体元素。 Blob finders是任何旨在从数字图像中提取/测量数据的系统中的关键步骤。