在图像格式中有完整的文字。 (即)扫描文档的格式为图像文件* .tiff。光学字符识别方法仅为法线格式的字母。在此图像格式中包含像运行字母的文本。那么如何识别文本并将其转换为文本文件呢?
答案 0 :(得分:1)
使用tesseract-ocr,您可以训练角色。如果您确定使用运行字母字体,则可以将这些样本用作训练数据,而不是随附的默认样本。我没办法写信,但这个图书馆是一个很好的起点。
http://code.google.com/p/tesseract-ocr/
此致 人员Prasanna。