我正在寻找一个解释/ API doc /如何在C ++中使用(并训练?)Tesseract的例子,在Google Tesseract页面上没什么用处,还能在网上找到一些东西。
任何有用的资源,经验都会受到欢迎,因为我不知道如何开始它。
P.S:
答案 0 :(得分:4)
我对Tesseract有一些经验... 一个简单的谷歌'培训tesseract'揭示了这个页面: http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract 你必须选择你想要培训的tesseract版本.. 虽然3是最新版本,但它是全新的,因此人们仍在解决任何问题 - 我仍在使用2.4版本。无论如何,你会发现训练tesseract有大约9个步骤用于特定的“语言”(或者应该被称为'fonts'或'character-sets')。您也可以使用现有的'eng'语言 - 但这取决于您的应用程序。例如,在我的应用程序中,我将不得不进行文档分析并占用一个特定的区域,并希望OCR一个13个字符的数字字符串 - 我需要高精度 - 我不希望它读'5'为' S'和'0'为'O'等,因此创建我的特定字体集的特定'语言'是合乎逻辑的,该字体集仅由字符0..9组成,而你可能不在乎你是否得到额外的'噪音
答案 1 :(得分:0)
Tesseract Ocr是一个用于检测光学字符的开源库。如果您使用的是visual studio,则只需要包含库文件。如果您正在使用qt creator,那么您必须构建库以处理QT。您需要使用CMakelist或Cmake Gui来构建库。 您可以访问该链接 Opencv Ocr build for Qt 5.4 mingw