文字地理位置

时间:2019-05-28 14:39:29

标签: python geolocation geocoding

我需要在单个国家开发项目数据库中定位一系列条目。对于每个项目,我都有一个简短的摘要,我想在其中确定市镇(甚至更大的政治实体),以便稍后使用GoogleMaps API对每个项目进行地理位置定位。

我正在尝试在不使用自然语言处理的情况下提取地理信息。我不希望使用NLP,因为该项目位于小村庄,我的名字可以从其他来源获得。

我当时正在考虑在空格上分割文本,并尝试使用Python词汇表查找匹配项,其中的值是村庄的名称,键是在空格处分割的村庄的名称。

示例:

“ Project X已在荷兰海牙建造”。 给我:“海牙”

2 个答案:

答案 0 :(得分:0)

我建议使用NLP :-)或至少一些与NLP相关的算法。 在这里,您可以找到拥有500多名市民的城市/城镇列表,其中包含有关GPS坐标,地区,国家和大洲http://www.geonames.org/http://download.geonames.org/export/dump/readme.txt的信息 我将使用这些数据通过https://pypi.org/project/pyahocorasick/算法构建非常轻量的名称实体识别。 之后,您可以拥有一个很好的,整洁的“树” /村级结构-小区域-大区域-国家-大陆(如果我没记错的话甚至可以使用GPS坐标)。

答案 1 :(得分:0)

尝试https://geocode.xyz/textscan

https://geocode.xyz/?scantext=Project%20X%20has%20been%20built%20in%20The%20Hague,%20The%20Netherlands&geoit=XML

<geodata>
<match>
<location>The Hague,NL</location>
<latt>52.06805</latt>
<longt>4.29647</longt>
<confidence>0.2</confidence>
<MentionIndices>32</MentionIndices>
<matchtype>locality</matchtype>
</match>
</geodata>