我要检测该表中的所有文本块:
因此我使用tesseract
通过TSV输出运行pytesseract
:
result = pytesseract.image_to_data(source, lang='rus', output_type=pytesseract.Output.DICT)
并可视化level=4
文本块:
和level=5
文本块:
它工作得很好,但是在level=4
中,它“合并”了第一列和第二列中的文本块,尽管它们之间相距很远。
如何告诉tesseract
认为文本块level=5
彼此距离太远,不同的块level=4
是吗?