假设您有一个如下图像:
如何构建分析此图像的服务,并在几秒钟的处理过程中,显示包含与每个文本区域对应的可编辑区域的文档:
(矩形用于显示每个可编辑区域的边界。)
该软件需要结合多种技术:
从这里,用户可以编辑每个框中的文本来修改文档。
答案 0 :(得分:1)
这是常见的OCR引擎通常所做的事情。看看ABBYY FineReader,Omnipage,Cuneiform,Google Tessetact,Expervision等......
这并不像看起来那么容易,因为许多商用OCR引擎仍然犯了愚蠢的错误,而且大多数引擎都需要数年才能开发出来。
找到段落边界框的问题是OCR过程的一部分。在你的情况下,段落分区很简单,但想到报纸或杂志的页面,工作变得更加困难。
背景保存问题同样困难。简单的单色背景很容易删除,但添加一些更复杂的东西,很快就会变得困难。
在同一张图片中将所有三个问题结合在一起会变得更加困难。添加一些线条和框,灰度阴影,半色调,旋转字体,淡入淡出和其他特殊效果,OCR几乎变得不可能。许多OCR引擎在具有明确定义文本的简单页面上100%准确,但是当您开始为文档添加更多复杂性时,读取速率开始迅速下降。有些OCR引擎比其他引擎要好得多。
答案 1 :(得分:-1)
如果您想要一个免费的库来执行此操作,请使用tesseract。它会返回边界框和其他一些特征以及OCR文本。
至于字体,我不确定你是否可以在tesseract中访问有关它的信息,但如果没有,一旦你有文字和图片,很容易找到与现有字体最接近的匹配。