我正在考虑编写一个mashup应用程序,该应用程序将从subreddit获取提交标题,并尝试根据它们可能相关的位置在地图上绘制它们。我还想在稍后添加Twitter等内容。
我在规划中遇到的困难是如何从标题中检测出最可能相关的国家。我的第一个猜测是列出一个国家列表,以及它们的匹配排列(例如“英语”匹配“英格兰”等),并检查文本中这些项目的出现次数。然而,这可能会非常缓慢,并且需要我列出每个国家的占有*名称。
我打算用Python做这件事(以便学会使用它)所以我想知道是否有a)一个可以做到这一点的库(我可以从中学习)或者b)更明显这样做的方法?
要了解我正在使用的输入类型是一些示例以及我想要从中获取的内容:
*这可能是错误的用法
答案 0 :(得分:3)
Placemaker提供地理浓缩 非常重要的比例 地理位置的Web内容 相关但不是地理上的 发现。提供自由形式 文本,服务识别地点 在文中提到,消除那些歧义 places,并返回唯一标识符 (WOEIDs)每个,以及 关于有多少次的信息 地方被发现在文本中,在哪里 在文本中找到了它。 WOEIDs 由服务返回可以通过 进一步了解雅虎的GeoPlanet™API 地理丰富和发现。
答案 1 :(得分:0)
在MySQL中使用FullText搜索索引。然后使用AJAX调用来查询数据库。
答案 2 :(得分:0)
请看看 this 的回答是否有帮助:
<块引用>[包 geograpy3] 允许您从 URL 或文本中提取地名,并为这些名称添加上下文——例如区分国家、地区或城市。