Tesseract适用于仅包含文本的图像 - 裁剪图像仅从图像中获取文本部分

时间:2012-11-28 07:48:21

标签: ruby-on-rails ruby ocr tesseract

Tesseract适用于仅包含文本且仅包含文本的图像。但是,如果有文字和图像,我们想要只识别文本。

我正在使用Tesseract对图像中的文本进行OCR识别。 Tesseract从仅包含文本的图像中提供精确文本。但是,当我检查包含汽车及其车号的图像时,T​​esseract为车号提供了不同的乱码文本。我应用灰度优化,阈值和其他效果来获得精确的文本输出并提高输出的准确性,但它仍然提供不同的文本混合不同的编码。同样,我正在寻找其他方法来提取这样的文本。

任何人都可以知道如何使用Tesseract OCR或任何替代方法从这些图像中获取文本,以便只有文本部分保留在图像中,以便Tesseract可以在输出中提供确切的文本。

裁剪图像是获取唯一文本的另一种方法,但如何使用ImageMagick或任何其他选项来执行此操作。

感谢。

1 个答案:

答案 0 :(得分:2)

如果您确切知道文本在图像的哪个位置,您可以将图像与这些区域的坐标一起发送到Tesseract进行识别。请查看Tesseract API方法TesseractRectSetRectangle