我正在学习Tesseract OCR并阅读基于此article的article。从第一篇文章:
第一步是自适应阈值处理,它将图像转换为 二进制图像。下一步是连接组件分析 用于提取字符轮廓。这种方法非常有用 因为它用白色文字和黑色背景进行图像的OCR。 Tesseract可能首先提供这种方式 处理。然后,轮廓转换为Blob。 Blob被组织成文本行,以及行和 分析区域的某些固定区域或等效文本 大小
有人能解释什么是Blob吗?
答案 0 :(得分:1)
来自https://tesseract-ocr.repairfaq.org/tess_glossary.html:
斑点
扫描图像的孤立的小区域。它由大纲描绘。 Tesseract' juggles'斑点,看看它们是否可以进一步分裂成能够提高认可信心的东西。有时候,斑点会被合并在一起。如果这给出了更好的结果。例如,请参阅pithsync.cpp。
答案 1 :(得分:1)
通常,斑点(也称为连接分量)是二进制图像中的连接片(即,未被破坏)。换句话说,它是二进制图像中的实体元素。 Blob finders是任何旨在从数字图像中提取/测量数据的系统中的关键步骤。