OCR Tesseract扫描文本块不是从左到右的iOS

时间:2014-01-29 03:30:53

标签: ios ocr tesseract

我有一张纸要扫描,但纸张格式不是从左到右扫描的方式。截至目前,即使某些文本没有“分组”在一起,它也会从左向右扫描。

如何让Tesseract识别分组的文本并一起扫描分组文本而不是从左到右?

图片(无法发布图片低代表)

http://cdn.designrshub.com/wp-content/uploads/2012/06/alignment.jpg

例如,我如何让它识别出这四段中的每一段都是它自己的“块”并分别扫描它们?而不是扫描两个顶部段落中的第一行,然后从那里开始。

1 个答案:

答案 0 :(得分:0)

在Tesseract中,您可以在需要扫描的图像中输入帧。因此,如果您设置段落的帧,它将仅扫描该特定区域,并将返回该区域中的文本。因此,您可以分别扫描每个段落。

转到Tesseract.mm文件并在此处添加此代码。

- (void)setRect:(CGRect)rect {
     _tesseract->SetRectangle(rect.origin.x, rect.origin.y, rect.size.width, rect.size.height);
}

转到Tesseract.h文件并定义方法:

- (void)setRect:(CGRect)rect;

然后你可以在调用recognText之前设置框架

[tesseract setRect:CGRectMake(0, 0, 100, 100)];
[tesseract recognizedText];