Question

我是计算机视觉的新手。我试图从视频帧和图像中提取文本。 github中提供的大多数代码都与python＆lt; 3版本兼容。关于如何进行并获得相关代码和优秀论文的任何想法。

注意：我已经实施了pytesseract-OCR，但我没有取得好成绩。

Answer 1

你好TISHANT CHANDRAKAR。

首先，您必须了解文本识别器的工作原理。

1. have-text-region is extracted from the image
2. we recognize text for each region
3. Combine the text of all regions to form final result

Tesseract本身在第2步中运行良好。但对于第1步，它只适用于文档中的文本。在计算机视觉中，步骤1称为“场景文本检测”。所以你的下一步是找到一些好的代码，或者可以进行“场景文本检测”的纸张。

如果您想学习和阅读论文，请在此处列出Scene text detection list。但在我看来，你图像中的文字是黑色背景上的白色文字，所以一个简单的颜色阈值可以很容易地解决第1步。

希望有帮助