Spark资源分配

时间:2017-03-22 15:59:15

标签: apache-spark pyspark

我们正在评估Apache Spark(pySpark)作为我们机器学习管道的框架 它由(在高层次上)两个步骤组成:

  1. 预处理步骤(因为我们正在处理音频数据,子步骤是例如功率谱的计算),它更适合在CPU节点上运行。
  2. 有一个训练步骤,其中模型构建并且针对GPU节点进行了优化。我们希望以这样的方式分发工作,即第一步(数据预处理)在CPU集群上运行,第二步(模型训练)在GPU集群上运行,而不必在步骤1之间手动干预和2.
  3. 问题:

    1. Spark是组织处理不同集群的正确位置,还是必须在其他地方完成(例如在Mesos级别)
    2. 如果Spark是正确的地方,我们如何使用Spark组织它,以便第一步在CPU集群上运行,第二步在GPU集群上运行?
    3. 我最初的想法是创建多个SparkContext,但这似乎是不鼓励的,例如,在这里:How to create multiple SparkContexts in a console

      非常感谢你的帮助。

0 个答案:

没有答案