应用错误收集

加重OCR的重音标记

时间：2016-01-14 05:00:43

标签： ocr tesseract

我使用Tesseract将图像用于文本提取。

某些单词中的重音符号太薄而且坏了（例如：＆＃39; ^＆＃39;在单词＆＃39;Bội＆＃39;看起来非常暗淡）的左侧导致一些不准确文本输出（＆＃39;Bội＆＃39; - ＆gt;＆＃39;Bủi＆＃39;）。是否有任何库可以改善这种情况，或者是否有任何算法迭代图像的每个像素并将它们设置为相同的像素颜色值？

1 个答案:

答案 0 :(得分：0)

这样的事情很容易实现，是的，但它可能会在其他地方引起问题。例如，eroding a 3x3 kernel creates：

可以生成be threasholded at 252：

注意电话号码中的9和6现在如何合并为一个blob。

就完成此类事情的特定库而言，请查看OpenCV或任何其他CV库。

询问意见：主键中的重音符号/变音符号
从拉丁字符中删除重音符号（变音符号）以进行比较
提交表格中的西班牙口音标记
蒂尔德口音标志着亚历克斯
Windows控制台中的重音符号
Slidify不再呈现重音标记
加重OCR的重音标记
接受重音符号＆amp; - 在javascript上
清单json中的重音符号

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？