我们说我有一套文件,其中包含一个人名,如驾驶执照,护照,邀请函等。
从每个文档中我都有一个使用ocr(光学字符识别)从这些文档中提取人名的过程。由于提取过程可能包含错误,我需要找到"正确的名称"在那组字符串中。
因此,我可以将以下字符串作为人名 - " John" ; " J0hn" ; " JOHN&#34 ;; " 10hn&#34 ;;"。+ O - &#34 ;; "约翰史密斯"。 作为一个人,你可以告诉人名是约翰,因为它是最常见的事。 做这个的最好方式是什么?是否有算法可以在一组字符串中找到最常见的事件?