名片解析器。如何从名片识别文本中提取相关信息?

时间:2012-04-06 06:56:51

标签: iphone ios ios4

我开发了具有OCR扫描功能的iphone应用程序。 使用Tesseract api,从拍摄的图像中获取文本。 但现在我需要根据姓名,地址,电子邮件,电话号码等将每个文本分开。 因为名片结构/格式不具体,所以难以假设。

然而,很少有事情可以假设 1)包含字符串的“@”主要是电子邮件ID。 2)所有带括号或+号的数字大部分都是电话号码。 但仍然有很多可能性。

2 个答案:

答案 0 :(得分:4)

你需要NSLInguisticTagger课程的帮助..这是你最好的选择,否则你必须为你所说的每个部分创建类似的逻辑。

答案 1 :(得分:0)

您可以检查我们在此Javascript BCR库中使用的逻辑,该逻辑也基于tesseract(js中的移植)。

https://github.com/syneo-tools-gmbh/Javascript-BCR-Library