我们的工作部门刚刚购买了4个节点(服务器),每个节点具有80个核心以及一堆内存和磁盘空间。
我们正处于起步阶段,希望确保将节点正确地放入群集中,以适应我们将来要使用的用途。
预期用途集中在机器学习/大数据上。本质上,我们是高级分析团队。我们有用于完整数据的SQL Server和数据库设置。我们的主要目标是使用数据获得业务见解,开发算法并为组织的数据和流程构建优化引擎。在某些时候我们可能需要的工具:
-Docker images for developed applications
-Place to run jobs when developing new algorithms in batch job/maybe real time.
-Python ML algorithms
-Spark Jobs
-Possible Hadoop cluster? (this one uncertain about now)
-我们要运行批处理作业,但也要运行交互式作业。
我们当前的计划是运行Chronos,并最终运行马拉松以进行日程安排。我们计划在Apache Mesos上进行资源管理。
最后是问题。我们的IT部门通知我们,要运行hadoop集群,我们必须虚拟化每个节点。这种虚拟化在每个节点上占用8个核心,以及GB的内存和大量的磁盘空间。他们正确吗?我们可以通过什么方式减少系统的开销,从而在设置服务器时不会消耗10-20%的资源?
最后,作为一个额外的奖励,有很多不错的书介绍了如何设置mesos集群,添加hadoop以及配置所有内容。
基于一些评论,也许我们不需要Hadoop,在这种情况下,我们就不需要虚拟化。