如何虚拟化运行Hadoop和MongoDB的节点?

时间:2017-06-13 15:42:08

标签: mongodb hadoop apache-spark virtualization

我有一些关于由Hadoop和MongoDB组成的虚拟化群集的问题。

有关我的数据管道的一些信息:

  • 我不经常将数据从HDFS传输到MongoDB,但有时我必须这样做。
  • 我使用HDFS作为数据湖,具有Hive提供的一些数据仓库功能。
  • 我计划使用Spark在MongoDB数据上运行分析任务。
  • 可能使用Spark在HDFS数据上运行某些任务(目前不太可能)
  • 我知道在不同的虚拟节点上分离Hadoop和MongoDB的事实,这可能会在将数据从HDFS写入MongoDB时引入网络延迟,反之亦然。

问题:

  1. 在与MongoDB相同的虚拟机上运行Hadoop生态系统(HDFS,YARN,Hive,Spark以命名一些服务)是否存在缺点?
  2. 虚拟化的Hadoop和MongoDB节点是否应该“永远在线”,或者在处于较长的空闲状态时是否可以关闭节点?是否存在关闭它们的缺点 - 除了下一个分析任务的重启时间更长?
  3. Spark在某种程度上与Hadoop生态系统相关联。哪个是运行群集的首选方法?

    • 在我的虚拟节点上一起运行Hadoop和MongoDB

    • 单独运行Hadoop和MongoDB,但只在Hadoop节点上安装了Spark

    • 分别运行Hadoop和MongoDB,并在Hadoop和MongoDB节点上都有Spark

  4. 我无法找到有关如何构建此类群集的足够信息。提前致谢!

0 个答案:

没有答案