应用错误收集

时间：2013-01-02 19:29:00

标签： hadoop amazon-s3 amazon-ec2 hbase

我现在想知道的是如何在我的群集上运行的hbase中实际获取数据？我是否需要将其加载到S3然后将其加载到我的hbase群集中？

是否有加载/提取数据的最佳做法？任何类型的指针都会受到赞赏，因为我是EC2的新手。

答案 0 :(得分：4)

您需要SSH进入您的某个节点，然后您可以使用以下内容将数据复制到HDFS：

hadoop fs -copyFromLocal data / sample_rdf.nt input / sample_rdf.nt

这会将文件从本地计算机复制到HDFS。当然，假设您已经在您的计算机上安装了该文件，因此您必须先将其上传到EC2，或者让您的EC2节点从某个地方下载。

将文件上传到S3并使用s3cmd将其从S3复制到您的计算机是有意义的，具体取决于您销毁节点的频率和频率。是否要保留文件供以后使用。

（在第3部分中，您在该教程中有更多示例。）