我可以使用OCR来检测字体样式(粗体,斜体)吗?

时间:2011-03-02 04:17:14

标签: ocr font-face tesseract

我有兴趣使用OCR从简单的文本中提取粗体和斜体字。例如,如果我输入一个包含文字的清晰图像:

“快速棕色狐狸跳过超过 lazy 狗。”

我想获得如下输出:粗体(“棕色”,“跳跃”),斜体(“懒惰”)

我已经考虑过使用OCRopus或Tesseract进行此操作,但文档很差,我无法判断它是否可行,或者如果它可以如何实现。

2 个答案:

答案 0 :(得分:11)

在Tesseract 3.0.1中有来自trunk的功能。 API中添加了一个新类 - ResultIterator,它具有您感兴趣的以下功能:

 WordFontAttributes(bool* is_bold,
                    bool* is_italic,
                    bool* is_underlined,
                    bool* is_monospace,
                    bool* is_serif,
                    bool* is_smallcaps,
                    int* pointsize,
                    int* font_id).  

实际上你可以从here.

自己看到它

答案 1 :(得分:2)

Tesseract 3.0x基于XML的hOCR格式包括角色属性。你可能想尝试一下。

http://code.google.com/p/tesseract-ocr/issues/detail?id=377#c5