如何根据“位置”字段将用户分类到不同的国家/地区

时间:2009-08-14 21:15:13

标签: python xml geolocation elementtree

大多数网络应用程序都有一个位置字段,用户可以在其中输入自己选择的位置。

如何根据输入的位置将用户分类到不同的国家/地区。

例如,我使用了users.xml的Stack Overflow转储并提取了用户的姓名,声誉和位置:

['Jeff Atwood', '12853', 'El Cerrito, CA']
['Jarrod Dixon', '1114', 'Morganton, NC']
['Sneakers OToole', '200', 'Unknown']
['Greg Hurlman', '5327', 'Halfway between the boardwalk and Six Flags, NJ']
['Power-coder', '812', 'Burlington, Ontario, Canada']
['Chris Jester-Young', '16509', 'Durham, NC']
['Teifion', '7024', 'Wales']
['Grant', '3333', 'Georgia']
['TimM', '133', 'Alabama']
['Leon Bambrick', '2450', 'Australia']
['Coincoin', '3801', 'Montreal']
['Tom Grochowicz', '125', 'NJ']
['Rex M', '12822', 'US']
['Dillie-O', '7109', 'Prescott, AZ']
['Pete', '653', 'Reynoldsburg, OH']
['Nick Berardi', '9762', 'Phoenixville, PA']
['Kandis', '39', '']
['Shawn', '4248', 'philadelphia']
['Yaakov Ellis', '3651', 'Israel']
['redwards', '21', 'US']
['Dave Ward', '4831', 'Atlanta']
['Liron Yahdav', '527', 'San Rafael, CA']
['Geoff Dalgas', '648', 'Corvallis, OR']
['Kevin Dente', '1619', 'Oakland, CA']
['Tom', '3316', '']
['denny', '573', 'Winchester, VA']
['Karl Seguin', '4195', 'Ottawa']
['Bob', '4652', 'US']
['saniul', '2352', 'London, UK']
['saint_groceon', '1087', 'Houston, TX']
['Tim Boland', '192', 'Cincinnati Ohio']
['Darren Kopp', '5807', 'Woods Cross, UT']

使用以下Python脚本:

from xml.etree import ElementTree

root = ElementTree.parse('SO Export/so-export-2009-05/users.xml').getroot()
items = ['DisplayName','Reputation','Location']

def loop1():
    for count,i in enumerate(root):
    det = [i.get(x) for x in items]
    print det
    if count>30: break

loop1()

将人员分类到不同国家/地区的最简单方法是什么?是否有可用的现成查找表为我提供了X位置属于Y国家/地区的输出?

查找表不一定完全准确。通过在Google上查询位置字符串或者更好的是Wolfram Alpha来获得合理准确的答案。

2 个答案:

答案 0 :(得分:2)

最好的办法是使用geopysome Examples)等地理编码API。

例如,Google Geocoding API会在回复的CountryNameCode字段中返回该国家/地区。

只有这一个位置字段,错误匹配的数量可能会相对较高,但也许它已经足够了。

如果您有服务器日志,您可以尝试使用IP地址解析器查找用户IP地址(Wikipedia上的更多信息和指示

答案 1 :(得分:1)

强制用户指定国家/地区,因为您必须处理歧义。这将是正确的方式。

如果那是不可能的,至少可以结合他们的IP地址进行最佳猜测。

例如,['Grant','3333','Georgia']

这是美国佐治亚州吗? 或者这是格鲁吉亚共和国?

如果他们的IP地址显示在中亚或东欧的某个地方,那么很有可能是格鲁吉亚共和国。如果它是北美,那么它们很可能意味着美国佐治亚州。

请注意,IP地址到国家/地区的映射不是100%准确,并且数据库需要定期更新。在我看来,太麻烦了。