是否有' raster font'的真实类型字体文件?

时间:2015-05-11 08:47:55

标签: fonts tesseract raster true-type-fonts python-tesseract

我正在使用Tesseract为一些屏幕截图执行OCR。屏幕截图中的字符位于raster fonts。但Tesseract需要True Type Font文件进行培训。

我可以在Windows/Fonts文件夹中找到许多真实类型的字体文件。我想知道是否有光栅字体?

1 个答案:

答案 0 :(得分:2)

“光栅字体”不是一个真实的东西:OpenType(其中truetype是两个内部编码之一)是真正的字体,符合highly detailed, authoritative specification,但光栅字体几乎“有没有单一的规范,只要你的程序知道如何解包制作的东西“,你就可以发明任何你想要的东西。定义栅格/位图字体有很多种不同的方法,所有这些方法基本上都是bitmap image + header that says which letter maps to which x/y/w/h rectangle in the image形式。

OCR不希望使用它们,因为位图字体无法缩放:最简单的原因是“没有官方位图字体规范”,但即使有,如果你试图将位图字体与OCR结果然后整个页面的宽度或高度相差一个像素,相对于你的位图字体需要的内容可以导致任何文本都没有匹配。 Bbitmap字体被编码为固定为字体大小(通常只有一个,有时多于一个,但仍然严格固定),因此如果扫描的文档不是正好正确的大小,则所有像素都不会完美重叠,导致O和V之类的荒谬事物与V和O匹配,具有相同的可靠性,因为垂直移动的微小像素可以使V和O重叠相同数量的误差像素。

另一方面,

OpenType字体使用矢量轮廓,并且可以缩放以与各种非常成功的算法最佳匹配。除非您扫描的文档“非常小”,否则矢量转换产生90-100%的匹配而没有任何问题。

你要做的事情就是点击像MyFont.com的What The Font!这样的东西,然后用一个句子(可能是两个)放入你的扫描文档,然后让它告诉你哪个字体最接近匹配它,然后只需使用该字体进行OCR培训。超级有效!