使用依赖项构建Apache Spark Mllib

时间:2018-06-27 10:55:32

标签: maven apache-spark apache-spark-mllib apache-spark-ml

我不想在集群中运行spark。使用spark的唯一原因是要使用MLlib。简而言之,我需要在我的应用程序中使用MLlib jar,并且几乎没有任何依赖。目前,我的火花装配罐大约为125 MB。有什么办法可以将其最小化?

1 个答案:

答案 0 :(得分:0)

根据应用程序的使用方式,您可以将提供的依赖项标记为已提供的依赖项,这将减少jar的大小,因此部署会更快。

此外,您还检查maven程序集是否还在jar中包含Scala stdlib(sbt assembly默认包括Scala stdlib)