我正在对我的数据库中保存的一些tesseract
,pdf
,image
文件进行tiff
转换。但在这样做时,我从各种文件中获取了大量垃圾文本输出。例如,在这种情况下,图像给了我以下文本输出。
“‘55“ .'Hï¬ï¬jï¬tï¬tf‘N‘Dfli’iisifagï¬'aï¬ffl‘rfé-wt-“ï¬â€˜-:-'!W',fl':ï¬fm:afJuirzv-int'g-v "3.0:†_‘ l 1: v .w
From:Beaver Medical Internal Med. 909 797 8922 06/28/2016 11:24 #946 RODS/006
正如您所看到的,它在首发中添加了一些额外的特殊字符。
只是想知道是否有任何控制参数可以从输出中删除这些特殊字符,因为许多输入文件都会发生这种情况。
注意:这不是原始图像,这只是我转换为文本的pdf屏幕截图的一部分,输出也是原始输出的一部分。
我的问题与Limit characters tesseract is looking for不相似,因为这个问题是忽略字母以外的东西,但在我的情况下,输出文本中有一些不需要的字母,数字,我需要在使用后删除tessedit_char_whitelist abcdefghijklmnopqrstuvwxyz
我在输出文本的启动时仍然收到错误的文本he fhawfyhftiwlwwfuisipgkggfawfarwtwofrrletitwtfilfmjafgurrwsnnve mania a i v a an
,并且它也删除了数字。所以只想询问是否有任何方法可以删除这些不需要的字母,特殊字符,出现在首字母中的数字。
答案 0 :(得分:0)
在tessdata / configs目录中创建一个配置文件(例如" letters") - 通常是/usr/share/tesseract/tessdata/configs
或/usr/share/tesseract-ocr/tessdata/configs
并将此行添加到配置文件中:
tessedit_char_whitelist abcdefghijklmnopqrstuvwxyz
...或者也许[a-z]有效.. dunno :-) 然后调用类似于此的tesseract:
tesseract input.tif output nobatch letters
这将限制tesseract只识别想要的字符