无法为Windows非本机字体创建经过适当培训的数据,即用于catia绘图字体
即使识别出一些字母数字,字母也有“i,j”等字符,如Ø(Phi),°(度),±(正负)等特殊符号不正确认可。它的盒子文件值不合适。
请求您的帮助。感谢
答案 0 :(得分:0)
我也需要这 3 个字符 - 虽然现在回答这个可能为时已晚。
可能不是在所有情况下都有多大帮助,但挪威语 .traineddata 文件确实包含 Ø (Phi) 字符,这个经过训练的数据文件帮助我处理了这个字符。
°(度)字符可能有点棘手,因为它通常无法识别,因为它太小了,如果您能看到字符内部是清晰的,则 Tesseract 可能能够破译。
现在最难的是±(加减)。我还没有破解这个,这可能是一种非常毛茸茸的方法;但我在想,加减总是被识别为+加而已。
我可以利用这一点。
我可以使用 Tesseract 的引擎,它公开 PageSegMode.SingleChar 来检测每个单独的字符,并使用 Tesseract 的 GetSegmentedRegions() 来获取每个字符所在的位图/图像区域是 - 您可以稍后将所有字符重新组合成一个字符串。
然后我可以运行 ImageMagick 来计算/比较找到的加号字符与加号或加号图像的相似程度。最相似的会告诉你哪个字符。
采用我的方法,我仍然需要解析识别的文本并将其转换为可用的内容。 例如,Ø (Phi) 字符可能会被检测为小写,但我希望它是大写的。 或者度数检测为撇号,但预期结果是度数。 另一种转换是当我检测到一个尺寸时,小数点可能会被逗号错误地识别,但我希望小数点分隔符是一个点 (1,99 - 1.99)