Question

我正在对我的数据库中保存的一些tesseract，pdf，image文件进行tiff转换。但在这样做时，我从各种文件中获取了大量垃圾文本输出。例如，在这种情况下，图像给了我以下文本输出。

â€œâ€˜55â€œ .'Hï¬ï¬jï¬tï¬tfâ€˜Nâ€˜Dï¬‚iâ€™iisifagï¬'aï¬fï¬‚â€˜rfÃ©-wt-â€œï¬â€˜-:-'!W',ï¬‚':ï¬fm:afJuirzv-int'g-v "3.0:â€ _â€˜ l 1: v .w 

From:Beaver Medical Internal Med. 909 797 8922 06/28/2016 11:24 #946 RODS/006

正如您所看到的，它在首发中添加了一些额外的特殊字符。

只是想知道是否有任何控制参数可以从输出中删除这些特殊字符，因为许多输入文件都会发生这种情况。

注意：这不是原始图像，这只是我转换为文本的pdf屏幕截图的一部分，输出也是原始输出的一部分。

我的问题与Limit characters tesseract is looking for不相似，因为这个问题是忽略字母以外的东西，但在我的情况下，输出文本中有一些不需要的字母，数字，我需要在使用后删除tessedit_char_whitelist abcdefghijklmnopqrstuvwxyz我在输出文本的启动时仍然收到错误的文本he fhawfyhftiwlwwfuisipgkggfawfarwtwofrrletitwtfilfmjafgurrwsnnve mania a i v a an，并且它也删除了数字。所以只想询问是否有任何方法可以删除这些不需要的字母，特殊字符，出现在首字母中的数字。

Answer 1

在tessdata / configs目录中创建一个配置文件（例如＆＃34; letters＆＃34;） - 通常是/usr/share/tesseract/tessdata/configs 或/usr/share/tesseract-ocr/tessdata/configs

并将此行添加到配置文件中：

tessedit_char_whitelist abcdefghijklmnopqrstuvwxyz

...或者也许[a-z]有效.. dunno :-) 然后调用类似于此的tesseract：

tesseract input.tif output nobatch letters

这将限制tesseract只识别想要的字符

通过删除特殊字符来改进Tesseract OCR结果

1 个答案: