我是计算机视觉的新手。我试图从视频帧和图像中提取文本。 github中提供的大多数代码都与python< 3版本兼容。关于如何进行并获得相关代码和优秀论文的任何想法。
注意:我已经实施了pytesseract-OCR,但我没有取得好成绩。
答案 0 :(得分:0)
你好TISHANT CHANDRAKAR。
首先,您必须了解文本识别器的工作原理。
1. have-text-region is extracted from the image
2. we recognize text for each region
3. Combine the text of all regions to form final result
Tesseract本身在第2步中运行良好。但对于第1步,它只适用于文档中的文本。在计算机视觉中,步骤1称为“场景文本检测”。所以你的下一步是找到一些好的代码,或者可以进行“场景文本检测”的纸张。
如果您想学习和阅读论文,请在此处列出Scene text detection list。但在我看来,你图像中的文字是黑色背景上的白色文字,所以一个简单的颜色阈值可以很容易地解决第1步。
希望有帮助