将单个更改为群集hadoop安装保留持久数据

时间:2018-03-21 17:20:03

标签: hadoop hdfs

我打算在生产环境中做一个Hadoop POC。 POC包括:  1.接收大量(现实生活)活动  2.累积他们有一组足够大小的事件  3.将事件集保留在单个文件HDFS中

如果POC成功,我想安装集群环境,但我需要将数据保留在单集群安装(POC)中。

然后,问题是:将已经保留在HDFS单个群集中的数据迁移到真正的群集HDFS环境有多困难?

提前致谢(抱歉我的英文不好) 此致

1 个答案:

答案 0 :(得分:0)

您无需迁移任何内容。

如果您在Pseudo distributed模式下运行Hadoop,您只需要添加指向现有namenode的数据节点即可!

我想指出

  

将事件集保留在单个文件HDFS中

我不确定制作“单个文件”,但我建议您定期检查点。如果流失败怎么办?你如何捕捉掉落事件? Spark,Flume,Kafka Connect,NiFi等可以让你这样做。

如果您所做的只是流媒体事件,并希望将它们存储在一个可变的时间段内,那么Kafka就是针对该用例而构建的。您不一定需要Hadoop。将事件推送到Kafka,消耗它们,它有意义,例如,搜索引擎或数据库(Hadoop不是数据库)