是否可以 OCR 图片,并使用Tesseract OCR识别图片中不同的字体大小。如果是,我是否需要使用任何其他第三方库,或者我可以使用纯Java。例如,
我想通过使用字体大小来检测报纸的标题和内容。
有关此事的任何帮助将不胜感激。
答案 0 :(得分:1)
您可以使用ResultIterator.WordFontAttributes API方法(example in Java using Tess4J)来检索已识别文本的字体信息,包括字体名称和大小。
答案 1 :(得分:0)
Tesseract的hOCR输出包括可用于确定大小的行和单词的边界框,并且可以通过打开hocr_font_info
配置将其配置为还包括输出中字体的磅值变量