识别文本中的地理位置

时间:2009-07-29 15:08:35

标签: nlp geography

为确定特定字符串是否属于某个地理位置,我们做了哪些工作?例如:

'troy, ny'
'austin, texas'
'hotels in las vegas, nv'

我想我有点期待的是一种统计方法,可以确信前两个是位置。最后一个可能需要一个启发式来抓取“%s,%s”,然后使用相同的技术。我特意寻找那些不太依赖命题'in'的方法,因为它不是一个完全明确或一致的位置指示器。

有人能指出方法,文件或现有的公用事业吗?谢谢!

4 个答案:

答案 0 :(得分:8)

您描述的问题通常称为地理查询解析或更一般地称为地理信息检索。

最近在CLEF 2007(http://www.uni-hildesheim.de/geoclef/2007/Query-Parsing.htm)上执行了此任务。获胜团队使用基于规则的语法,这类似于您可能不想要的语法。 www2009上的另一篇论文谈到了GeoParser:http://www2009.eprints.org/239/

在CIKM 2007上还有一些关于地理信息检索的论文:http://www.geo.unizh.ch/~rsp/gir07/accepted.html

我不知道有任何开源软件可以做到这一点,但它可能会被捆绑到像Lemur这样的搜索引擎中。

答案 1 :(得分:4)

Everyblock.com采用了一种非常有趣的方法,专注于如何用英语表达位置 - 它们基本上使用了一些现在开源的复杂而广泛的正则表达式。他们的应用程序旨在扫描新闻文章,评论和各种公共数据源,并将它们与特定位置相关联,并且运行良好。诸如“20世纪东北角的建筑物和旧金山的瓦伦西亚街的火灾”这样的表达非常准确地进行了地理编码。您可以研究来源here。您可能需要的特定部分是ebpub/ebpub/geocoder/base.py,位于ebpub下载及其周围的所有内容,例如从SmartGeocoder类开始并向后工作。

答案 2 :(得分:3)

帮助链接:geonames.org search

  

返回为其找到的名称   searchterm为xml或json文档

示例:http://ws.geonames.org/search?q=troy,%20ny&maxRows=10

答案 3 :(得分:0)

我正在geocode.xyz

建立一个免费的地理位置分析器

(目前支持约50个欧洲国家,很快将提供全球覆盖)

可以在OpenWikiMap

上找到地理区域分析的示例应用程序