Apache-Spark库内容

时间:2015-02-24 08:41:32

标签: java apache-spark apache-spark-mllib

我正在尝试使用Apache-Spark的MLlib库运行Java测试程序。

我从他们的网站下载了最新的Spark版本,并按照O'reilly的书“学习Spark,Lightning-Fast大数据分析”查找有用的示例和提示,但是当涉及到导入正确的库时,它们(和我发现谷歌搜索的其他教程)使用我下载的Spark文件夹中没有包含的类。

以下是一个例子:

大多数教程都导入了org.apache.spark.mllib.regression.LabeledPoint,这在我的案例中并不存在。我只有:

  • JavaLassoSuite
  • JavaLinearRegressionSuite
  • JavaRidgeRegressionSuite

我对应该包含在库中的每个其他文件都有同样的问题。我尝试下载旧版本,但它仍然是相同的,即使文件与MLlib没有直接关系(org.apache.spark.SparkConf和org.apache.spark.api.java。*文件)

我错过了一步,或者有人知道吗?

谢谢!

修改

本书第一个例子所需的进口:

import org.apache.spark.mllib.classification.LogisticRegressionModel;
import org.apache.spark.mllib.classification.LogisticRegressionWithSGD;
import org.apache.spark.mllib.feature.HashingTF;
import org.apache.spark.mllib.linalg.Vector;
import org.apache.spark.mllib.regression.LabeledPoint;

我是从this link下载的:

Spark Release:1.2.1

包裹类型:源代码

下载类型:直接下载

(这是我在Stack Overflow上的第一篇文章,所以如果我做错了,请不要犹豫告诉我)

2 个答案:

答案 0 :(得分:3)

也许这会对你有帮助!

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-mllib_2.10</artifactId>
    <version>1.3.0</version>
</dependency>

答案 1 :(得分:1)

为了获得你想要的jar,你必须使用maven编译你下载的资源(如果你不熟悉这个工具,我建议你下载一个预建版本)

构建完成后,您将在yourSparkFolder/spark-1.2.1/mllib/target中找到所需的jar。

请注意,这只能解决这个具体问题。 Spark mlibs列出了here列出的各种依赖项。 Personnaly,我通过在我的spark项目中使用maven来管理这些(你可以找到所需的依赖项here)。