我刚刚按照本指南:http://rogueleaderr.tumblr.com/post/32768181371/set-up-and-run-a-fully-distributed-hadoop-hbase-cluster在Amazon EC2上设置了一个群集,其中运行了hadoop和hbase。
我现在想知道的是如何在我的群集上运行的hbase中实际获取数据?我是否需要将其加载到S3然后将其加载到我的hbase群集中?
是否有加载/提取数据的最佳做法?任何类型的指针都会受到赞赏,因为我是EC2的新手。
答案 0 :(得分:4)
您需要SSH进入您的某个节点,然后您可以使用以下内容将数据复制到HDFS:
hadoop fs -copyFromLocal data / sample_rdf.nt input / sample_rdf.nt
这会将文件从本地计算机复制到HDFS。当然,假设您已经在您的计算机上安装了该文件,因此您必须先将其上传到EC2,或者让您的EC2节点从某个地方下载。
将文件上传到S3并使用s3cmd将其从S3复制到您的计算机是有意义的,具体取决于您销毁节点的频率和频率。是否要保留文件供以后使用。
(在第3部分中,您在该教程中有更多示例。)