我正在OCRing 10k发票以进行AI培训,事实证明,使用Tesseract的-psm 4作为txt导出非常适合此操作,因为它提供了每个单独的订单项,作为整个页面上一行不间断的文本行,包括所有列
示例:
Product Description Quantity Unit Price Total
1001 Boots 2 $ 100.00 $ 200.00
唯一的缺点是-psm 4不使用OSD(定向和脚本检测),而仅接受已经正确定向的发票。 为了解决这个问题,我首先必须运行-psm 0以获取具有每个文件/页面方向的单个.osd文件,然后在发票方向尚未正确的.TIF文件上运行convert -rotate 90。>
我的问题:我可以以某种方式创建自己的-psm 4,将全角文本提取与-psm 1中的方向(和脚本检测)结合起来吗?
或者是否有其他方法可以像-psm 4一样以某种方式调用OSD或确保整个页面宽度的文本?
谢谢。