我必须遍历所有列以找到1列值的相似性。例如:
ID,FN,LN,Phone
-----------
1,James,Butt,872-232-1212
2,Josephine,Darakjy, 872-232-1213
3,Art,Venere,872-232-1214
4,Lenna,Paprocki,872-232-1215
5,Donette, Foller,872-232-1216
6,Jmes,Butt,666-232-1212
7,Donette, Foller,888-232-1216
8,Josphne,Darkjy, 555-232-1213
在循环中,我将取FN,即'James',并使用完整的字符串距离(例如Levenshtein)查看完整数据集中的名称是否相似(在这种情况下,我与ID#6匹配): 'Jmes',我将通过添加一个新的GUID列来创建存储桶:
ID,FN,LN,Phone,GrupId
----------------------
1,James,Butt,872-232-1212,G1
2,Josephine,Darakjy, 872-232-1213,G2
3,Art,Venere,872-232-1214,G3
4,Lenna,Paprocki,872-232-1215,G4
5,Donette, Foller,872-232-1216,G5
6,Jmes,Butt,666-232-1212,G1
7,Donette, Foller,888-232-1216,G5
8,Josphne,Darkjy, 555-232-1213,G2
我必须在多个列(例如LN,电话)上执行相同的操作。想象一下,如果我有100万条记录。
任何想法,建议或链接都会受到赞赏。谢谢!