从Twitter JSON Feed中提取信息

时间:2014-08-13 16:56:39

标签: java python json twitter

我有一个巨大的(以GB为单位)的JSON格式的twitter数据源进行分析。每个推文都表示为一个json对象。我需要对这些数据进行一些分析,如

a:从这些Feed中提取对话。 b:查找统计数据

记录的样本格式 https://gist.github.com/hrp/900964

1.请建议一般approch提取所需信息。 2.使用的最佳语言(Java或任何其他) 3.如果要在java中完成进程概述(如文件处理等) 4.任何有用的参考链接都与此问题有关。

注意:数据由数百万个JSON对象组成。

2 个答案:

答案 0 :(得分:1)

在我看来,运行数据分析的最佳语言是R.在您的情况下,您已经拥有了Twitter数据,但是如果您想查询Twitter数据,您可以使用可随时使用的R包非常方便:

-twitteR:您连接到Twitter API,您可以进行查询http://cran.r-project.org/web/packages/twitteR/index.html

-streamR:它连接到Twitter Streaming API以实时获取推文http://cran.r-project.org/web/packages/streamR/index.html

然后只是谷歌关于如何使用R挖掘Twitter数据,并且有很多文章,有关于如何做到这一点的好方法,创建良好的可视化等,这将给你非常好的见解。他们中的大多数都基于一个名为" tm"这是Text Mining最受欢迎的R包: http://cran.r-project.org/web/packages/tm/index.html

这里有几个有趣的入门链接:

http://www.r-bloggers.com/analyze-twitter-data-using-r/

http://www.rdatamining.com/examples/text-mining

希望它有所帮助!

答案 1 :(得分:0)

看看Big Insights。随时可以使用大量文档和示例来帮助您入门。它是一个精确解决大量数据的分析平台

http://www-01.ibm.com/software/data/infosphere/biginsights/