通过删除特殊字符来改进Tesseract OCR结果

时间:2017-04-25 06:39:51

标签: ocr tesseract

我正在对我的数据库中保存的一些tesseractpdfimage文件进行tiff转换。但在这样做时,我从各种文件中获取了大量垃圾文本输出。例如,在这种情况下,图像给了我以下文本输出。

enter image description here

“‘55“ .'Hï¬ï¬jï¬tï¬tf‘N‘Dfli’iisifagï¬'aï¬ffl‘rfé-wt-“ï¬â€˜-:-'!W',fl':ï¬fm:afJuirzv-int'g-v "3.0:†_‘ l 1: v .w 

From:Beaver Medical Internal Med. 909 797 8922 06/28/2016 11:24 #946 RODS/006 

正如您所看到的,它在首发中添加了一些额外的特殊字符。

只是想知道是否有任何控制参数可以从输出中删除这些特殊字符,因为许多输入文件都会发生这种情况。

注意:这不是原始图像,这只是我转换为文本的pdf屏幕截图的一部分,输出也是原始输出的一部分。

我的问题与Limit characters tesseract is looking for不相似,因为这个问题是忽略字母以外的东西,但在我的情况下,输出文本中有一些不需要的字母,数字,我需要在使用后删除tessedit_char_whitelist abcdefghijklmnopqrstuvwxyz我在输出文本的启动时仍然收到错误的文本he fhawfyhftiwlwwfuisipgkggfawfarwtwofrrletitwtfilfmjafgurrwsnnve mania a i v a an,并且它也删除了数字。所以只想询问是否有任何方法可以删除这些不需要的字母,特殊字符,出现在首字母中的数字。

1 个答案:

答案 0 :(得分:0)

在tessdata / configs目录中创建一个配置文件(例如" letters") - 通常是/usr/share/tesseract/tessdata/configs/usr/share/tesseract-ocr/tessdata/configs

并将此行添加到配置文件中:

tessedit_char_whitelist abcdefghijklmnopqrstuvwxyz  

...或者也许[a-z]有效.. dunno :-) 然后调用类似于此的tesseract:

tesseract input.tif output nobatch letters  

这将限制tesseract只识别想要的字符