Amazon EC2和S3:如何读取和写入数据

时间:2013-01-02 19:29:00

标签: hadoop amazon-s3 amazon-ec2 hbase

我刚刚按照本指南:http://rogueleaderr.tumblr.com/post/32768181371/set-up-and-run-a-fully-distributed-hadoop-hbase-cluster在Amazon EC2上设置了一个群集,其中运行了hadoop和hbase。

我现在想知道的是如何在我的群集上运行的hbase中实际获取数据?我是否需要将其加载到S3然后将其加载到我的hbase群集中?

是否有加载/提取数据的最佳做法?任何类型的指针都会受到赞赏,因为我是EC2的新手。

1 个答案:

答案 0 :(得分:4)

您需要SSH进入您的某个节点,然后您可以使用以下内容将数据复制到HDFS:

  

hadoop fs -copyFromLocal data / sample_rdf.nt input / sample_rdf.nt

这会将文件从本地计算机复制到HDFS。当然,假设您已经在您的计算机上安装了该文件,因此您必须先将其上传到EC2,或者让您的EC2节点从某个地方下载。

将文件上传到S3并使用s3cmd将其从S3复制到您的计算机是有意义的,具体取决于您销毁节点的频率和频率。是否要保留文件供以后使用。

(在第3部分中,您在该教程中有更多示例。)