在低分辨率图像采集中检测子图像(旧文档扫描)

时间:2017-10-05 03:55:01

标签: image ocr

我的问题很简单。我收藏了大量旧文件的低质量扫描,即用汉字书写的旧文本。我想检测所有包含单词的图像(由汉字字符组成,例如城堡)。

我已经尝试过使用OCR(带Tesseract),即使是受限制的白名单,但是当它存在时无法识别给定的字符,当然因为文档是旧的并且扫描是以低分辨率完成的,因此字符模糊甚至有时似乎缺乏笔画(见下面的例子)。

Excerpt of a scanned document

因此,我正在考虑采用其他图像分析技术,并感谢您的建议。 (请注意,我更喜欢在这里得到假阳性而不是假阴性。)

非常感谢你的时间和考虑。

其他文件(回应Mark的要求):

Excerpt of First Document containing 議員

Excerpt of Second Document containing 議員

Reference image for 議員 (pronounced "giin")

0 个答案:

没有答案