我必须解析一些实验室报告,我正在使用Tesseract从中提取数据。我遇到了一个问题,如果我传递整个页面的图像,Tesseract无法正确识别文本。但是,如果我传递一小部分页面(从Test Report
覆盖整个表格到*****
),它就能正确读取所有文本。
在正式情况下(当我传递整个图像时),它产生一些无用的英文单词的随机文本输出。部分内容如下:
Command I ran: tesseract -l eng report.png out
Refierence No : assurcAN, 98941-EU
5:er Nu (SKU) , 95942, 95943
Labelled age gwup “aw
Quamny 20 pweces
Fackagmg pmwosd Yes
Vendor
Manmamurer
但是当我通过该小节时,我得到了准确的结果。
这可能是什么问题?我该如何解决?