Spark MLlib统计:它在哪里?

时间:2015-01-22 09:20:18

标签: scala apache-spark

当我尝试:

 import org.apache.spark.mllib.stat.MultivariateStatisticalSummary
 import org.apache.spark.SparkContext._
 import org.apache.spark.mllib.stat.Statistics

我收到错误:

 object Statistics is not a member of package org.apache.spark.mllib.stat

如何解决这个问题?

更新

我使用Spark 1.1.0并提交作业:

/home/zork/usr/spark-1.1.0/bin/spark-submit \
  --class Data \
  --master local[*] \
  --driver-memory 2g \
    /home/zork/wks/ShopList/target/scala-2.10/shoplist_2.10-1.0.jar \
    /home/zork/wks/ShopList/data/orders-4.csv \
    /home/zork/wks/ShopList/data/books.csv \
    /home/zork/wks/ShopList/data/erros.csv

有什么想法吗?

我的build.sbt:

$ cat build.sbt
name := "ShopList"

version := "1.0"

scalaVersion := "2.10.4"

libraryDependencies += "org.apache.spark" % "spark-mllib_2.10" % "1.0.0" % "provided"

2 个答案:

答案 0 :(得分:2)

将您的spark-mllib sbt依赖关系更新为1.1.0或更新版本。 {1.0}中没有Statistics

libraryDependencies += "org.apache.spark" % "spark-mllib_2.10" % "1.1.0" % "provided"

答案 1 :(得分:1)

你的火花版是什么?

您是在火花壳上使用它还是使用火花提交作业。

我正在使用它与spark 1.2并没有问题

libraryDependencies + =“org.apache.spark”%“spark-mllib_2.10”%“1.2.0”