标签: hadoop download bigdata
我想下载Infochimps提供的完整的百万歌数据集。我没有使用AWS并且我的大学提供了一个集群,我想将数据下载到。我目前正在使用wget,但这需要我很长时间才能下载。有更好的方法来下载数据吗?
还有办法将数据直接下载到Hadoop文件系统,而不是先下载到本地文件系统,然后使用-copyFromLocal复制到HDFS吗?
请帮忙。
谢谢!
答案 0 :(得分:2)
在我看来,最好的方法是使用Flume或Chukwa等数据汇总工具。这两种工具都允许我们以分布式和可靠的方式聚合大量数据。不仅如此,这些工具还允许您将数据直接提取到Hadoop集群中。您可能需要做一些工作,比如编写将源数据从源中提取到集群中的自定义源。
HTH