我打算在生产环境中做一个Hadoop POC。 POC包括: 1.接收大量(现实生活)活动 2.累积他们有一组足够大小的事件 3.将事件集保留在单个文件HDFS中
如果POC成功,我想安装集群环境,但我需要将数据保留在单集群安装(POC)中。
然后,问题是:将已经保留在HDFS单个群集中的数据迁移到真正的群集HDFS环境有多困难?
提前致谢(抱歉我的英文不好) 此致
答案 0 :(得分:0)
您无需迁移任何内容。
如果您在Pseudo distributed模式下运行Hadoop,您只需要添加指向现有namenode的数据节点即可!
我想指出
将事件集保留在单个文件HDFS中
我不确定制作“单个文件”,但我建议您定期检查点。如果流失败怎么办?你如何捕捉掉落事件? Spark,Flume,Kafka Connect,NiFi等可以让你这样做。
如果您所做的只是流媒体事件,并希望将它们存储在一个可变的时间段内,那么Kafka就是针对该用例而构建的。您不一定需要Hadoop。将事件推送到Kafka,消耗它们,它有意义,例如,搜索引擎或数据库(Hadoop不是数据库)