Tesseract中奇怪的文本框检测

时间:2019-04-09 20:55:52

标签: ocr tesseract

我要检测该表中的所有文本块:

因此我使用tesseract通过TSV输出运行pytesseract

result = pytesseract.image_to_data(source, lang='rus', output_type=pytesseract.Output.DICT)

并可视化level=4文本块:

level=5文本块:

它工作得很好,但是在level=4中,它“合并”了第一列和第二列中的文本块,尽管它们之间相距很远。

如何告诉tesseract认为文本块level=5彼此距离太远,不同的块level=4是吗?

0 个答案:

没有答案