处理OCR文本

时间:2010-06-18 15:02:06

标签: c# antlr ocr text-processing

我正在使用库从OCRed Tiff文件中提取文本并将其转储到数据库中。我提取的文本实际上是具有NAME,DOB,COUNTRY等字段的FORMS。由于OCR没有实际值和标签之间的差异,它只是转储所有文本。现在我在DB中有以下格式的文本:

名称:MyName 地址:我的地址

现在,下一步是从数据库中提取值lile MyName MyAddrss 。文档类型可能会变化,因此通用解析器可能无法正常工作。

你有什么建议来处理这种情况?我应该写不同的解析器吗?也许ANTLR可以帮助我吗?如果是的话怎么样?请指导我。

我正在研究.NET

0 个答案:

没有答案