我目前正在开发的项目使用一个小型Hadoop集群来迭代大约300GB的数据。分析这些数据并填充我们系统稍后使用的mongoDb。
目前,Hadoop集群正在4台物理机上运行(旧的Dell Precision t3500' s)。为了测试,这是一个很好的设置,因为我可以轻松地与机器进行交互,安装和测试。但显然,当程序发布时,这不太令人满意。对于此步骤,最期望的结果是虚拟化Hadoop。将它传播到一组可以在集群中运行的Docker容器中。
在搜索互联网时,很快就会发现Hadoop可以在这样的环境中运行。大多数搜索结果都是关于Yarn和实际的hadoop实例以及如何启动它们。这一切都很棒,但我想知道:HDFS会发生什么。
在我目前的测试设置中,HDFS包含300gb的数据,这些数据以三倍的形式存储(以防止数据丢失)。当系统上线时,该数据集每天将增加大约250mb。将所有这些文件上传到HDFS需要一段时间。
现在回答我的问题:
当docker启动或停止某些容器时,HDFS将如何操作。它还能保证它不会丢失任何数据。并且重新同步新节点不需要很长时间吗?我也很有可能从错误的角度看待这个问题。我之前从未这样做过,所以如果我走错路,请告诉我。
ps:如果这是一个长/模糊的问题,我很抱歉。但就像我说这对我来说是一个未知的领域所以我正在寻找可以指向正确方向的东西,谷歌只让我变得柔和,但将其信息限制在YARN和Hadoop自我