检测Tesseract OCR Java实现的大小字体大小

时间:2014-09-21 12:53:21

标签: java fonts ocr tesseract detect

是否可以 OCR 图片,并使用Tesseract OCR识别图片中不同的字体大小。如果是,我是否需要使用任何其他第三方库,或者我可以使用纯Java。例如,

  

我想通过使用字体大小来检测报纸的标题和内容。

有关此事的任何帮助将不胜感激。

2 个答案:

答案 0 :(得分:1)

您可以使用ResultIterator.WordFontAttributes API方法(example in Java using Tess4J)来检索已识别文本的字体信息,包括字体名称和大小。

答案 1 :(得分:0)

Tesseract的hOCR输出包括可用于确定大小的行和单词的边界框,并且可以通过打开hocr_font_info配置将其配置为还包括输出中字体的磅值变量