应用错误收集

来自照片的裁剪和OCR标签

时间：2012-10-04 19:42:41

标签： image-processing ocr tesseract

我需要从标签中提取一些特定信息，这些信息大部分都是已知的布局。数据的来源是我知道可能很棘手的照片。数据可以是条形码（简单），短文本（大多数已知的单词，可以随着时间重复学习）和数字（设置格式和长度）。

我做过一些研究，似乎Tesseract可以在多个平台上做我想做的事，但我有几个问题。

1）如何仅裁剪相关标签。很久以前，我为大学课程做了一些非常基本的信号处理。我想这不是太困难。有什么好的库吗？

2）由于我知道布局，是否有办法按部分为每个特定的OCR标记需要的价值？

3）有关预处理图片的其他任何提示吗？

4）Tesseract是否适合这项工作？

1 个答案:

答案 0 :(得分：0)

之前我没有处理过Tesseract。但是，我们使用名为leadtools的不同第三方工具包。此工具包可识别条形码，文本和数字，然后将结果保存为文档格式。它可以满足您的要求，因为它提供了在您想要识别的文本周围绘制特定区域的方法，并且它有一些预处理图像的方法。此外，它还能够自动查找要进行OCR的文件中的区域。有关详细信息，请查看此Tutorial