我有一些关于由Hadoop和MongoDB组成的虚拟化群集的问题。
有关我的数据管道的一些信息:
- 我不经常将数据从HDFS传输到MongoDB,但有时我必须这样做。
- 我使用HDFS作为数据湖,具有Hive提供的一些数据仓库功能。
- 我计划使用Spark在MongoDB数据上运行分析任务。
- 我可能使用Spark在HDFS数据上运行某些任务(目前不太可能)
- 我知道在不同的虚拟节点上分离Hadoop和MongoDB的事实,这可能会在将数据从HDFS写入MongoDB时引入网络延迟,反之亦然。
问题:
- 在与MongoDB相同的虚拟机上运行Hadoop生态系统(HDFS,YARN,Hive,Spark以命名一些服务)是否存在缺点?
- 虚拟化的Hadoop和MongoDB节点是否应该“永远在线”,或者在处于较长的空闲状态时是否可以关闭节点?是否存在关闭它们的缺点 - 除了下一个分析任务的重启时间更长?
-
Spark在某种程度上与Hadoop生态系统相关联。哪个是运行群集的首选方法?
-
在我的虚拟节点上一起运行Hadoop和MongoDB
-
单独运行Hadoop和MongoDB,但只在Hadoop节点上安装了Spark
-
分别运行Hadoop和MongoDB,并在Hadoop和MongoDB节点上都有Spark
醇>
我无法找到有关如何构建此类群集的足够信息。提前致谢!