如何在iOS中使用Tesseract OCR获取准确的文本?

时间:2014-08-20 06:46:49

标签: ios objective-c iphone image-processing tesseract

我正在处理iPhone应用程序。在这里我需要从图像中获取文本,经过谷歌搜索后我发现Tesseract可以做到这一点。它工作正常但没有得到准确的结果。我使用了this并处理了图像但是仍然没有取得好成绩。

Tesseract* tesseract = [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"eng"];
UIImage *selectedImage=[UIImage imageNamed:@"download.jpg"];
[tesseract setImage:selectedImage];

ImageWrapper *greyScale=Image::createImage(selectedImage, selectedImage.size.width+100, selectedImage.size.height+100);
ImageWrapper *edges = greyScale.image->autoLocalThreshold();
[tesseract setImage:edges.image->toUIImage()];
[tesseract recognize];
NSLog(@"%@", [tesseract recognizedText]);

我使用下面的图片进行测试。但我得到的结果如.-|llIAT&T JG H109 PM ED ' '» "rr ~ ‘ ma» mania-J ‘E, ‘M, 4 ., -_ \ ~ \ Download Image 53.0 KB \ _11.04 PM | Hey | am in buenos aires right ‘now. Check out this mm phfllu 111:5 PM |' lam in Budapest on WiF. n is \ maePMu 001d here. ; l 1 . , ‘ l, . 11.05 PM u, .——; _ | Nice picture. Let me send you an audio nuke. _11 08PM

如何解决上述问题。如果有人在处理,请指导我。谢谢。

enter image description here

2 个答案:

答案 0 :(得分:1)

我尝试使用ABBYY Cloud OCR SDK识别您的图像,并决定与您分享结果。 我认为它相当准确: iphone ocr

您可以在此处尝试演示识别:http://cloud.ocrsdk.com/demo(它是一种无法提取数据的营销工具)。

我为ABBYY工作,随时准备为您提供帮助。请在评论中告诉我。

答案 1 :(得分:1)

我尝试使用ABBYY Cloud OCR SDK识别我的图像。

这里要解决这个问题,我尝试提取文本并以XML格式导出。此格式包含已识别的文本,其结构和参数在XML的帮助下进行描述。 par标签对应于已识别文本的一个段落。从XML获取文本后,您可以根据需要使用它。

我使用以下设置处理聊天屏幕截图:

"…/processImage?language=English&profile=documentConversion&exportFormat=xml"

并获得附加的XML文件。正确处理这些图像,每个对话框块被检测为单独的段落。

希望信息有用。

感谢Abbyy OCR SDK团队提供解决方案。