不应使用Spark MMLIB的常见用例是什么

时间:2016-10-06 18:13:54

标签: apache-spark machine-learning apache-spark-mllib

我有兴趣了解不应使用Spark MMLIB的用例。

1 个答案:

答案 0 :(得分:2)

根据经验,你应该在以下时间重新考虑你的选择:

  • 您需要一个精确的解决方案或明确定义的错误。 Spark MLlib通常使用针对Spark架构进行调整的启发式算法。有些人一般会给出非常好的结果,其他可能需要复杂的调整。
  • 您拥有精简数据/低维数(最多数千)或数据适合单个节点的内存(轻松256GB - 512GB,如今)。在这种情况下,优化的机器学习/线性代数库通常比Spark表现得更好。
  • 您希望在培训过程中收集详细的诊断信息。 MLlib算法通常是黑盒子。
  • 模型将在Spark之外使用。出口选择相当有限。