应用错误收集

时间：2011-01-05 06:10:30

标签： ocr

假设您有一个如下图像：

alt text

如何构建分析此图像的服务，并在几秒钟的处理过程中，显示包含与每个文本区域对应的可编辑区域的文档：

alt text

（矩形用于显示每个可编辑区域的边界。）

该软件需要结合多种技术：

从这里，用户可以编辑每个框中的文本来修改文档。

答案 0 :(得分：1)

这是常见的OCR引擎通常所做的事情。看看ABBYY FineReader，Omnipage，Cuneiform，Google Tessetact，Expervision等......

这并不像看起来那么容易，因为许多商用OCR引擎仍然犯了愚蠢的错误，而且大多数引擎都需要数年才能开发出来。

找到段落边界框的问题是OCR过程的一部分。在你的情况下，段落分区很简单，但想到报纸或杂志的页面，工作变得更加困难。

背景保存问题同样困难。简单的单色背景很容易删除，但添加一些更复杂的东西，很快就会变得困难。

在同一张图片中将所有三个问题结合在一起会变得更加困难。添加一些线条和框，灰度阴影，半色调，旋转字体，淡入淡出和其他特殊效果，OCR几乎变得不可能。许多OCR引擎在具有明确定义文本的简单页面上100％准确，但是当您开始为文档添加更多复杂性时，读取速率开始迅速下降。有些OCR引擎比其他引擎要好得多。

答案 1 :(得分：-1)

如果您想要一个免费的库来执行此操作，请使用tesseract。它会返回边界框和其他一些特征以及OCR文本。

至于字体，我不确定你是否可以在tesseract中访问有关它的信息，但如果没有，一旦你有文字和图片，很容易找到与现有字体最接近的匹配。