我需要在单个国家开发项目数据库中定位一系列条目。对于每个项目,我都有一个简短的摘要,我想在其中确定市镇(甚至更大的政治实体),以便稍后使用GoogleMaps API对每个项目进行地理位置定位。
我正在尝试在不使用自然语言处理的情况下提取地理信息。我不希望使用NLP,因为该项目位于小村庄,我的名字可以从其他来源获得。
我当时正在考虑在空格上分割文本,并尝试使用Python词汇表查找匹配项,其中的值是村庄的名称,键是在空格处分割的村庄的名称。
示例:
“ Project X已在荷兰海牙建造”。 给我:“海牙”
答案 0 :(得分:0)
我建议使用NLP :-)或至少一些与NLP相关的算法。 在这里,您可以找到拥有500多名市民的城市/城镇列表,其中包含有关GPS坐标,地区,国家和大洲http://www.geonames.org/或http://download.geonames.org/export/dump/readme.txt的信息 我将使用这些数据通过https://pypi.org/project/pyahocorasick/算法构建非常轻量的名称实体识别。 之后,您可以拥有一个很好的,整洁的“树” /村级结构-小区域-大区域-国家-大陆(如果我没记错的话甚至可以使用GPS坐标)。
答案 1 :(得分:0)
尝试https://geocode.xyz/textscan
<geodata>
<match>
<location>The Hague,NL</location>
<latt>52.06805</latt>
<longt>4.29647</longt>
<confidence>0.2</confidence>
<MentionIndices>32</MentionIndices>
<matchtype>locality</matchtype>
</match>
</geodata>