应用错误收集

我的问题很简单。我收藏了大量旧文件的低质量扫描，即用汉字书写的旧文本。我想检测所有包含单词的图像（由汉字字符组成，例如城堡）。

我已经尝试过使用OCR（带Tesseract），即使是受限制的白名单，但是当它存在时无法识别给定的字符，当然因为文档是旧的并且扫描是以低分辨率完成的，因此字符模糊甚至有时似乎缺乏笔画（见下面的例子）。

因此，我正在考虑采用其他图像分析技术，并感谢您的建议。（请注意，我更喜欢在这里得到假阳性而不是假阴性。）

非常感谢你的时间和考虑。

其他文件（回应Mark的要求）：