应用错误收集

我有一些关于由Hadoop和MongoDB组成的虚拟化群集的问题。

有关我的数据管道的一些信息：

问题：

在与MongoDB相同的虚拟机上运行Hadoop生态系统（HDFS，YARN，Hive，Spark以命名一些服务）是否存在缺点？
虚拟化的Hadoop和MongoDB节点是否应该“永远在线”，或者在处于较长的空闲状态时是否可以关闭节点？是否存在关闭它们的缺点 - 除了下一个分析任务的重启时间更长？
Spark在某种程度上与Hadoop生态系统相关联。哪个是运行群集的首选方法？
- 在我的虚拟节点上一起运行Hadoop和MongoDB
- 单独运行Hadoop和MongoDB，但只在Hadoop节点上安装了Spark
- 分别运行Hadoop和MongoDB，并在Hadoop和MongoDB节点上都有Spark

我无法找到有关如何构建此类群集的足够信息。提前致谢！