如何识别图像文件中的文本以及如何读取该文本?

时间:2014-10-11 13:03:33

标签: java algorithm ocr

在图像格式中有完整的文字。 (即)扫描文档的格式为图像文件* .tiff。光学字符识别方法仅为法线格式的字母。在此图像格式中包含像运行字母的文本。那么如何识别文本并将其转换为文本文件呢?

1 个答案:

答案 0 :(得分:1)

使用tesseract-ocr,您可以训练角色。如果您确定使用运行字母字体,则可以将这些样本用作训练数据,而不是随附的默认样本。我没办法写信,但这个图书馆是一个很好的起点。

http://code.google.com/p/tesseract-ocr/

此致 人员Prasanna。