我有一个巨大的(以GB为单位)的JSON格式的twitter数据源进行分析。每个推文都表示为一个json对象。我需要对这些数据进行一些分析,如
a:从这些Feed中提取对话。 b:查找统计数据
记录的样本格式 https://gist.github.com/hrp/900964
1.请建议一般approch提取所需信息。 2.使用的最佳语言(Java或任何其他) 3.如果要在java中完成进程概述(如文件处理等) 4.任何有用的参考链接都与此问题有关。
注意:数据由数百万个JSON对象组成。
答案 0 :(得分:1)
在我看来,运行数据分析的最佳语言是R.在您的情况下,您已经拥有了Twitter数据,但是如果您想查询Twitter数据,您可以使用可随时使用的R包非常方便:
-twitteR:您连接到Twitter API,您可以进行查询http://cran.r-project.org/web/packages/twitteR/index.html
-streamR:它连接到Twitter Streaming API以实时获取推文http://cran.r-project.org/web/packages/streamR/index.html
然后只是谷歌关于如何使用R挖掘Twitter数据,并且有很多文章,有关于如何做到这一点的好方法,创建良好的可视化等,这将给你非常好的见解。他们中的大多数都基于一个名为" tm"这是Text Mining最受欢迎的R包: http://cran.r-project.org/web/packages/tm/index.html
这里有几个有趣的入门链接:
希望它有所帮助!答案 1 :(得分:0)
看看Big Insights。随时可以使用大量文档和示例来帮助您入门。它是一个精确解决大量数据的分析平台