标签: hadoop dataset hive cloudera impala
请帮我找到数据挖掘研究项目的大量数据集。
如果您向我推荐任何搜索引擎数据(Google / yahoo用户搜索历史记录)或 Wikipedia用户查看统计信息或 twitter的用户推文数据集。
我正在研究hadoop框架和数据库,所以我想在每个表中有数百万条记录。
答案 0 :(得分:0)
这是百万首歌曲数据集。
http://labrosa.ee.columbia.edu/millionsong/
如果您想提取推文,我建议使用推特的流媒体API。
https://dev.twitter.com/streaming/overview