我导入一些包含音乐会场地地址的数据,这些地址是由不同用户手动输入的。所以,除了拼写错误,我也有不同的拼写(Strasse,Straße,Str ......)。地址记录包括:
我的想法是计算f.e. Levinstine-Damerau-所有地址实例之间的距离,然后找到密切相关的实例。用户应该决定,这些地址是否相同以及应该使用哪种拼写。
在计算所有地址数据之间的距离(5.000 plusminus)时,我有点担心O(n²)。
我的方法是否合理以及可能的改进措施。我也想知道,在决定使用双联系时,用户界面如何看起来像......
提前致谢,
弗兰克