我开发了具有OCR扫描功能的iphone应用程序。 使用Tesseract api,从拍摄的图像中获取文本。 但现在我需要根据姓名,地址,电子邮件,电话号码等将每个文本分开。 因为名片结构/格式不具体,所以难以假设。
然而,很少有事情可以假设 1)包含字符串的“@”主要是电子邮件ID。 2)所有带括号或+号的数字大部分都是电话号码。 但仍然有很多可能性。
答案 0 :(得分:4)
你需要NSLInguisticTagger课程的帮助..这是你最好的选择,否则你必须为你所说的每个部分创建类似的逻辑。
答案 1 :(得分:0)
您可以检查我们在此Javascript BCR库中使用的逻辑,该逻辑也基于tesseract(js中的移植)。