从文本字符串中提取国家/地区名称

时间:2010-11-13 01:50:30

标签: python categorization

我正在考虑编写一个mashup应用程序,该应用程序将从subreddit获取提交标题,并尝试根据它们可能相关的位置在地图上绘制它们。我还想在稍后添加Twitter等内容。

我在规划中遇到的困难是如何从标题中检测出最可能相关的国家。我的第一个猜测是列出一个国家列表,以及它们的匹配排列(例如“英语”匹配“英格兰”等),并检查文本中这些项目的出现次数。然而,这可能会非常缓慢,并且需要我列出每个国家的占有*名称。

我打算用Python做这件事(以便学会使用它)所以我想知道是否有a)一个可以做到这一点的库(我可以从中学习)或者b)更明显这样做的方法?

要了解我正在使用的输入类型是一些示例以及我想要从中获取的内容:

  • “他们不能逮捕我们所有人 - 把中指放到英国法律体系(pic)”
    • 关键字:英国(英国)
  • “民意调查:维基解密阿桑奇领先时代'年度人物' - 阿桑奇,一名澳大利亚人,他已经成为五角大楼一侧的荆棘,发布了关于伊拉克和阿富汗战争的秘密美国军事文件,已收到截至周五,共有21,736票。“
    • 关键词:阿富汗,伊拉克,[澳大利亚] (阿富汗,伊拉克,[澳大利亚]) - 澳大利亚难以发现主要不相关但这对我的目的来说是可以接受的
  • “对诺贝尔和平奖网站的网络攻击已经启动。保持优雅,中国。”
    • 关键字:中国(中国)
  • “一位犹太外科医生在患者的手臂上发现纳粹纹身后拒绝对病人进行手术并走出手术室。”
    • 关键字: - 我的目的可以接受

*这可能是错误的用法

3 个答案:

答案 0 :(得分:3)

您可以查看Yahoo! Place Maker API

  

Placemaker提供地理浓缩   非常重要的比例   地理位置的Web内容   相关但不是地理上的   发现。提供自由形式   文本,服务识别地点   在文中提到,消除那些歧义   places,并返回唯一标识符   (WOEIDs)每个,以及   关于有多少次的信息   地方被发现在文本中,在哪里   在文本中找到了它。 WOEIDs   由服务返回可以通过   进一步了解雅虎的GeoPlanet™API   地理丰富和发现。

答案 1 :(得分:0)

在MySQL中使用FullText搜索索引。然后使用AJAX调用来查询数据库。

答案 2 :(得分:0)

请看看 this 的回答是否有帮助:

<块引用>

[包 geograpy3] 允许您从 URL 或文本中提取地名,并为这些名称添加上下文——例如区分国家、地区或城市。