这是OCR过程的一部分,即:
如何将句子分成单词,然后分成字符?
这项任务的候选算法是什么?
答案 0 :(得分:1)
首先,NIST(国家标准与技术研究院)发布了一个protocol称为 NIST基于表格的手写识别系统 约15几年前,对于这个确切的问题 - 即提取和准备文本图像数据,以输入OCR的机器学习算法。 NIST的这个小组的成员也在该系统上发布了一些papers。
他们的分类器的性能也通过算法(“NIST手写样本表格”)发布的数据证明了。
我已经下载和使用的六个左右的OCR数据集中的每一个都引用了NIST使用的数据提取/准备协议来准备用于输入其算法的数据。特别是,我非常确定这是准备波士顿大学手写数字数据库所依赖的方法,该数据库被视为OCR的基准参考数据。
因此,如果NIST协议不是真正的标准,至少它是一种经过验证的方法,可以为OCR算法的输入准备文本图像。我建议从那里开始,并使用该协议来准备你的数据,除非你有充分的理由不这样做。
总之,NIST数据是通过直接从预打印的表格中提取32位x 32位标准化位图来准备的。
以下是一个例子:
00000000000001100111100000000000 00000000000111111111111111000000 00000000011111111111111111110000 00000000011111111111111111110000 00000000011111111101000001100000 00000000011111110000000000000000 00000000111100000000000000000000 00000001111100000000000000000000 00000001111100011110000000000000 00000001111100011111000000000000 00000001111111111111111000000000 00000001111111111111111000000000 00000001111111111111111110000000 00000001111111111111111100000000 00000001111111100011111110000000 00000001111110000001111110000000 00000001111100000000111110000000 00000001111000000000111110000000 00000000000000000000001111000000 00000000000000000000001111000000 00000000000000000000011110000000 00000000000000000000011110000000 00000000000000000000111110000000 00000000000000000001111100000000 00000000001110000001111100000000 00000000001110000011111100000000 00000000001111101111111000000000 00000000011111111111100000000000 00000000011111111111000000000000 00000000011111111110000000000000 00000000001111111000000000000000 00000000000010000000000000000000
我认为BU数据准备技术包含了NIST技术,但最后增加了几个步骤,不是考虑到更高的保真度,而是减少文件大小。特别是BU组:
答案 1 :(得分:1)
作为第一关:
现在你需要一个足够好的“大”定义。
答案 2 :(得分:0)
我假设你在matlab中使用图像处理工具箱。
区分图像中的文字。您可能想要关注:
通过试错法,您将得到合适的系数,使得您在第5步之后获得的图像将包含围绕每个字母/字/行/段的凸区域。
注意:
查看在线文档中的“文档中的示例”部分,或参阅Matlab“帮助”菜单中的图像处理工具箱文档。
这里给出的示例将指导您调用正确的函数及其各种格式。
答案 3 :(得分:0)
用于查找二进制序列,如101000000000000000010000001 检测序列0000,0001,001,01,1