加重OCR的重音标记

时间:2016-01-14 05:00:43

标签: ocr tesseract

我使用Tesseract将图像用于文本提取。

Example image showing vary faint diacritics

某些单词中的重音符号太薄而且坏了(例如:' ^'在单词'Bội'看起来非常暗淡)的左侧导致一些不准确文本输出('Bội' - >'Bủi')。是否有任何库可以改善这种情况,或者是否有任何算法迭代图像的每个像素并将它们设置为相同的像素颜色值?

1 个答案:

答案 0 :(得分:0)

这样的事情很容易实现,是的,但它可能会在其他地方引起问题。例如,eroding a 3x3 kernel creates

Original image with 3x3 kernel applied

可以生成be threasholded at 252

previous image threasholded

注意电话号码中的9和6现在如何合并为一个blob。

就完成此类事情的特定库而言,请查看OpenCV或任何其他CV库。