标签: hadoop apache-pig
我正在尝试查找有关PIG执行“ SOUNDEX”或加入加权值的能力的参考。
就我而言,我必须根据地址匹配两个表。在表1中,我有完整的地址,城市,州,邮政编码。在表2中,我有门牌号,街道,单位(可以为空),城市,州,邮政编码。
我确实有Zip,我认为Zip是缩短查找设计的好方法。
我不知道从哪里开始。任何智慧将不胜感激。其他任何选择也很棒。
谢谢。