hadoop - 将单个更改为群集hadoop安装保留持久数据

时间：2018-03-21 17:20:03

标签： hadoop hdfs

我打算在生产环境中做一个Hadoop POC。 POC包括： 1.接收大量（现实生活）活动 2.累积他们有一组足够大小的事件 3.将事件集保留在单个文件HDFS中

如果POC成功，我想安装集群环境，但我需要将数据保留在单集群安装（POC）中。

然后，问题是：将已经保留在HDFS单个群集中的数据迁移到真正的群集HDFS环境有多困难？

提前致谢（抱歉我的英文不好）此致

答案 0 :(得分：0)

您无需迁移任何内容。

如果您在Pseudo distributed模式下运行Hadoop，您只需要添加指向现有namenode的数据节点即可！

我想指出

将事件集保留在单个文件HDFS中

我不确定制作“单个文件”，但我建议您定期检查点。如果流失败怎么办？你如何捕捉掉落事件？ Spark，Flume，Kafka Connect，NiFi等可以让你这样做。

如果您所做的只是流媒体事件，并希望将它们存储在一个可变的时间段内，那么Kafka就是针对该用例而构建的。您不一定需要Hadoop。将事件推送到Kafka，消耗它们，它有意义，例如，搜索引擎或数据库（Hadoop不是数据库）