我正在尝试为Tesseract 4.0创建培训数据,以识别屏幕截图中的图标(例如,评论,共享,保存)。这是一个示例屏幕截图:
我想微调Tesseract以实现如下输出:
像147
评论29
已保存5
动作
58
动作
个人资料访问24
跟随2
我修改了箱形文件,如下所示:
-心:喜欢
-对话气泡:评论
-书签:已保存
-箭头:分享
但是,最终的训练数据未能按我的意愿读取图标。我得到的错误示例是“像不在unicharset中”。为图标创建unicharset时,我需要做些不同的事情吗?
答案 0 :(得分:0)
我知道了。框编辑器期望使用单个字母/数字而不是完整的单词。我已经使用Unicode字符来解释我的图标。步骤如下: