我正在为我的项目寻找推特或其他社交网站数据集。我目前有CAW 2.0 twitter数据集,但它只包含用户的推文。我想要一个显示朋友,追随者等数量的数据。
它不一定是推特,但我更喜欢推特或脸书。我已经尝试了infochimps,但显然该文件不再可供Twitter下载。
有人可以给我很好的网站来找到这种数据集。我打算将数据集提供给hadoop。
答案 0 :(得分:7)
尝试以下三个数据集:
包含约97百万条推文:
ed note :由于Twitter要求将其删除,因此之前链接的数据集不再可用。
包含4700万用户的用户图:
http://an.kaist.ac.kr/traces/WWW2010.html
以下数据集包含网络和推文,但是数据是通过雪球采样或其他东西收集的,因此朋友网络不统一。它有大约1000万条推文,您可以向研究人员发送更多数据。
http://www.public.asu.edu/~mdechoud/datasets.html
虽然看看数据分发的许可证。
希望这有帮助, 您还能告诉我这个数据集正在计划什么样的工作吗? 我有几个hadoop / pig脚本可用于数据集
答案 1 :(得分:5)
从facebook中提取了1亿页: http://it.slashdot.org/story/10/07/28/1350222/100-Million-Facebook-Pages-Leaked-On-Torrent-Site?art_pos=6
我不知道它们包含什么,但你可以看看,似乎很容易在种子网站上找到。
你也可以使用facebook API,但是如果你想要一个足够大的数据集,你必须要求facebook有权访问它。 它包含指向朋友,喜欢,群组的链接......
答案 2 :(得分:2)
Facebook社交图,应用程序安装和UCIrvine研究人员收集的Last.fm用户,事件,小组:http://odysseas.calit2.uci.edu/research/
答案 3 :(得分:1)
我认为Twitter数据收集的最佳工具是http://www.followthehashtag.com,它可以获取历史或未来数据以及高级数据导出功能
我们每周一次添加大数据集(约200,000条推文)的部分