下载280 GB的百万歌数据集

时间:2013-04-29 00:04:06

标签: hadoop download bigdata

我想下载Infochimps提供的完整的百万歌数据集。我没有使用AWS并且我的大学提供了一个集群,我想将数据下载到。我目前正在使用wget,但这需要我很长时间才能下载。有更好的方法来下载数据吗?

还有办法将数据直接下载到Hadoop文件系统,而不是先下载到本地文件系统,然后使用-copyFromLocal复制到HDFS吗?

请帮忙。

谢谢!

1 个答案:

答案 0 :(得分:2)

在我看来,最好的方法是使用FlumeChukwa等数据汇总工具。这两种工具都允许我们以分布式和可靠的方式聚合大量数据。不仅如此,这些工具还允许您将数据直接提取到Hadoop集群中。您可能需要做一些工作,比如编写将源数据从源中提取到集群中的自定义源。

HTH