用于研究的大型开源数据集

时间:2015-02-11 08:19:37

标签: hadoop dataset hive cloudera impala

请帮我找到数据挖掘研究项目的大量数据集。

如果您向我推荐任何搜索引擎数据(Google / yahoo用户搜索历史记录)或 Wikipedia用户查看统计信息 twitter的用户推文数据集。

我正在研究hadoop框架和数据库,所以我想在每个表中有数百万条记录。

1 个答案:

答案 0 :(得分:0)

这是百万首歌曲数据集。

http://labrosa.ee.columbia.edu/millionsong/

如果您想提取推文,我建议使用推特的流媒体API。

https://dev.twitter.com/streaming/overview