假设我想构建一个签到聚合器来计算跨平台的访问次数,这样我就可以知道在Foursquare,Gowalla,BrightKite等有多少人在那里办理了检查。是否有一个好的图书馆或我可以使用开箱即用的工具集将每个服务中的场地条目与我自己的唯一地点标识符相关联吗?
我基本上想要一个可以从一对(地名,地址,纬度/经度)元组映射到[0,1]的函数,它们将它们引用到同一个真实世界的位置。
有人必须已经这样做了,但是我的谷歌很弱。
答案 0 :(得分:0)
是的,您可以使用geocoder.net提交这两个地址(假设您是.Net开发人员,您没有说)。它为地址验证和地理编码提供了一个通用接口,因此您可以合理地确定一个地址等于另一个地址。
如果你不能让它们标准化和匹配,你可以比较它们的距离,并假设它们是相同的地方,如果它们彼此相差一定的阈值。
答案 1 :(得分:0)
我很悲观,因为有这样的工具已经可以访问。
基于实体分辨率文献匹配对的一个很好的解决方案是
然后,类似闭包的算法(根据给定概率阈值以上的合并对关闭集合)也可以帮助找到所有匹配(例如,当给定场所累积不同的名称时)。
然而,它不会是一个糟糕的工具或服务。