我想使用MLLib(随机森林等)提供的一些分类器,但我想在不连接Spark群集的情况下使用它们。
如果我需要以某种方式在进程中运行一些Spark内容以便我可以使用Spark上下文,那很好。但我还没有找到任何有关此类用例的信息或示例。
所以我的两个问题是:
答案 0 :(得分:4)
org.apache.spark.mllib
型号:
org.apache.spark.ml
型号:
有许多第三方工具可用于将Spark ml
模型导出到可在Spark不可知环境中使用的表单(jpmml-spark
和modeldb
来枚举一些,没有特别的偏好)。
Spark mllib
模型也支持PMML。
商业供应商通常会提供自己的工具来生产Spark模型。
您当然可以使用local
“群集”,但对于大多数可能的应用程序来说,它可能仍然有点沉重。启动完整上下文需要至少几秒钟,并且占用大量内存。
此外: