我可以通过命令行使用tesseract 4.0获得单词级置信度分数。有兴趣知道是否有办法让角色有信心。
对于词级置信度,使用以下命令:
tesseract [Image name] outputbase --oem 1 -l eng --psm 8 tsv
答案 0 :(得分:0)
在配置文件中设置hocr_char_boxes to 1
。或者,在命令行上,更新后的命令将是:
tesseract [Image name] outputbase --oem 1 -l eng --psm 8 -c hocr_char_boxes=1 hocr
注意hocr输出选项,然后在该文件中查找... _wconf
,例如
<span class='ocrx_word' id='word_1_1' title='bbox 127 344 4618 6915; x_wconf 1'>
让我知道这是否对您有用,否则我将删除答案。
来源:https://github.com/tesseract-ocr/tesseract/issues/1465#issuecomment-513139976