我有两个数据集,一个位于我的代理机构内,另一个来自外部源。从理论上讲,我所有代理商的数据都应该作为外部数据的一个子集进行匹配,但问题在于外部记录PHN +街道地址的方式并不一致。
我们的数据=西10街100号 他们的数据= 100W 10th St / 100 W. 10 St. / 100west 10TH Street(你明白了)
我们有很多数据,但它们甚至更多,我们的数据每天都在变化,因此逐个更改格式是不可行的。
所以我有两个问题,来自SAS新手,他通过工作和很多谷歌搜索学习,所以请耐心等待。
1 - 如果地址上的两个数据集的格式不完全一致,有没有办法对这两个数据集进行快速非完美/模糊匹配?我知道我必须仔细检查结果,但是我想要一个快速的方法来消除大多数不匹配,事先进行最少的清理。
2 - 如果无法实现1,那么清理外部数据和使地址更加一致的最佳方法是什么?我应该将PHN + Street保持在一起,还是将它们作为单独的变量保存?我开始研究prxchange,虽然它确实有用,但它并不完美。例如:
Address = left(prxchange('s / ST | ST. / STREET /', -1, cat(' ', address, ' ')));
在它到达St Marks的地址之前效果很好,并将St转换为STREET。
另一个问题是我必须考虑拼写,缩写,句号等所有可能的变化,我现在正在Excel中采用老式的方式,但这留下了出错的空间。
另外,如果某些地址已被压缩,例如10个而不是10个西部,那么添加空格或完全分离的最佳方法是什么?所有内容都以文本格式读入,并且再次执行简单子字符串的字符数没有一致性。
谢谢!