应用错误收集

如何从twitter获取流数据使用nltk连接pycurl - 正则表达式

时间：2011-07-28 03:57:37

标签： regex streaming real-time nltk pycurl

我是Python的新手，并且我的老板要完成这项任务：

从twitter获取流媒体数据与pycurl连接并以JSON
使用NLTK和正则表达式进行解析
将其保存到数据库文件（mySQL）或文件库（txt）

注意：这是我想抓住的网址（'http://search.twitter.com/search.json?geocode=-0.789275%2C113.921327%2C1.0km&q=+near%3Aindonesia+内％3A1km＆安培; result_type的最近=＆安培; RPP = 10' ）

有没有人知道如何使用上面的步骤从Twitter获取流媒体数据？

你的帮助将非常感激：）

1 个答案:

答案 0 :(得分：2)

我会看pattern：这是一个非常好的网络挖掘库，它也带有一个Twitter挖掘api。文档也很不错。

否则，请查看https://dev.twitter.com/docs/twitter-libraries的twitter库，获取流也应该非常简单。

如何使用nltk - 正则表达式从twitter获取流数据
如何从twitter获取流数据使用nltk连接pycurl - 正则表达式
正则表达式从参数中获取值
使用正则表达式获取数据
正则表达式，抓取链接
使用正则表达式从R中的字符串中获取数据
nltk
正则表达式SpaCy
带数字的正则表达式标记化？
带Connect by的正则表达式

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？