MLLib分类器可以在没有安装Spark的情况下进行培训和使用吗?

时间:2017-06-05 17:44:48

标签: apache-spark apache-spark-mllib

我想使用MLLib(随机森林等)提供的一些分类器,但我想在不连接Spark群集的情况下使用它们。

如果我需要以某种方式在进程中运行一些Spark内容以便我可以使用Spark上下文,那很好。但我还没有找到任何有关此类用例的信息或示例。

所以我的两个问题是:

  • 有没有办法在没有Spark上下文的情况下使用MLLib分类器?
  • 否则,我是否可以通过在进程中启动Spark上下文来使用它们,而无需任何实际的Spark安装?

1 个答案:

答案 0 :(得分:4)

org.apache.spark.mllib型号:

  • 没有Spark群集就无法接受培训。
  • 通常可用于没有群集的预测,但ALS等分布式模型除外。

org.apache.spark.ml型号:

有许多第三方工具可用于将Spark ml模型导出到可在Spark不可知环境中使用的表单(jpmml-sparkmodeldb来枚举一些,没有特别的偏好)。

Spark mllib模型也支持PMML。

商业供应商通常会提供自己的工具来生产Spark模型。

您当然可以使用local“群集”,但对于大多数可能的应用程序来说,它可能仍然有点沉重。启动完整上下文需要至少几秒钟,并且占用大量内存。

此外: