我试图提取使用我的所有盒子文件来提取字符,当我尝试这一行时
unicharset_extractor *.box
它给我一个错误,它找不到* .box而不是加载所有的盒子文件。
答案 0 :(得分:0)
该特定程序不支持此类语法。您必须链接所有箱文件的名称并将其输入,例如:
unicharset_extractor lang.fontname.exp0.box lang.fontname.exp1.box ...
您可以编写脚本(例如train.ps1)来自动执行此过程。
http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3
答案 1 :(得分:0)
我终于为此制作了自己的工具。 [链接] http://code.google.com/p/serak-tesseract-trainer/