应用错误收集

下载280 GB的百万歌数据集

时间：2013-04-29 00:04:06

标签： hadoop download bigdata

我想下载Infochimps提供的完整的百万歌数据集。我没有使用AWS并且我的大学提供了一个集群，我想将数据下载到。我目前正在使用wget，但这需要我很长时间才能下载。有更好的方法来下载数据吗？

还有办法将数据直接下载到Hadoop文件系统，而不是先下载到本地文件系统，然后使用-copyFromLocal复制到HDFS吗？

请帮忙。

谢谢！

1 个答案:

答案 0 :(得分：2)

在我看来，最好的方法是使用Flume或Chukwa等数据汇总工具。这两种工具都允许我们以分布式和可靠的方式聚合大量数据。不仅如此，这些工具还允许您将数据直接提取到Hadoop集群中。您可能需要做一些工作，比如编写将源数据从源中提取到集群中的自定义源。

HTH