Twitter(社交网络)数据集

时间:2010-07-27 04:46:40

标签: facebook hadoop twitter dataset

我正在为我的项目寻找推特或其他社交网站数据集。我目前有CAW 2.0 twitter数据集,但它只包含用户的推文。我想要一个显示朋友,追随者等数量的数据。

它不一定是推特,但我更喜欢推特或脸书。我已经尝试了infochimps,但显然该文件不再可供Twitter下载。

有人可以给我很好的网站来找到这种数据集。我打算将数据集提供给hadoop。

4 个答案:

答案 0 :(得分:7)

尝试以下三个数据集:

包含约97百万条推文:

<击> http://demeter.inf.ed.ac.uk/index.php?option=com_content&view=article&id=2:test-post-for-twitter&catid=1:twitter&Itemid=2

ed note :由于Twitter要求将其删除,因此之前链接的数据集不再可用。

包含4700万用户的用户图:

http://an.kaist.ac.kr/traces/WWW2010.html

以下数据集包含网络和推文,但是数据是通过雪球采样或其他东西收集的,因此朋友网络不统一。它有大约1000万条推文,您可以向研究人员发送更多数据。

http://www.public.asu.edu/~mdechoud/datasets.html

虽然看看数据分发的许可证。

希望这有帮助, 您还能告诉我这个数据集正在计划什么样的工作吗? 我有几个hadoop / pig脚本可用于数据集

答案 1 :(得分:5)

从facebook中提取了1亿页: http://it.slashdot.org/story/10/07/28/1350222/100-Million-Facebook-Pages-Leaked-On-Torrent-Site?art_pos=6

我不知道它们包含什么,但你可以看看,似乎很容易在种子网站上找到。

你也可以使用facebook API,但是如果你想要一个足够大的数据集,你必须要求facebook有权访问它。 它包含指向朋友,喜欢,群组的链接......

答案 2 :(得分:2)

Facebook社交图,应用程序安装和UCIrvine研究人员收集的Last.fm用户,事件,小组:http://odysseas.calit2.uci.edu/research/

答案 3 :(得分:1)

我认为Twitter数据收集的最佳工具是http://www.followthehashtag.com,它可以获取历史或未来数据以及高级数据导出功能

我们每周一次添加大数据集(约200,000条推文)的部分

http://followthehashtag.com/datasets/