我的问题很简单。我收藏了大量旧文件的低质量扫描,即用汉字书写的旧文本。我想检测所有包含单词的图像(由汉字字符组成,例如城堡)。
我已经尝试过使用OCR(带Tesseract),即使是受限制的白名单,但是当它存在时无法识别给定的字符,当然因为文档是旧的并且扫描是以低分辨率完成的,因此字符模糊甚至有时似乎缺乏笔画(见下面的例子)。
因此,我正在考虑采用其他图像分析技术,并感谢您的建议。 (请注意,我更喜欢在这里得到假阳性而不是假阴性。)
非常感谢你的时间和考虑。
其他文件(回应Mark的要求):
Excerpt of First Document containing 議員