如何从twitter获取流数据使用nltk连接pycurl - 正则表达式

时间:2011-07-28 03:57:37

标签: regex streaming real-time nltk pycurl

我是Python的新手,并且我的老板要完成这项任务:

  1. 从twitter获取流媒体数据与pycurl连接并以JSON
  2. 输出
  3. 使用NLTK和正则表达式进行解析
  4. 将其保存到数据库文件(mySQL)或文件库(txt)
  5. 注意:这是我想抓住的网址('http://search.twitter.com/search.json?geocode=-0.789275%2C113.921327%2C1.0km&q=+near%3Aindonesia+内%3A1km&安培; result_type的最近=&安培; RPP = 10' )

    有没有人知道如何使用上面的步骤从Twitter获取流媒体数据?

    你的帮助将非常感激:)

1 个答案:

答案 0 :(得分:2)

我会看pattern:这是一个非常好的网络挖掘库,它也带有一个Twitter挖掘api。文档也很不错。

否则,请查看https://dev.twitter.com/docs/twitter-libraries的twitter库,获取流也应该非常简单。