Question

我正在尝试从spark.mllib导入KMeans和Vectors类。该平台是带有python 3.5的IBM Cloud（DSX）和Junyper Notebook。

我试过了：

contains

我找到了几个示例/教程，第一个import org.apache.spark.mllib.linalg.Vectors import apache.spark.mllib.linalg.Vectors import spark.mllib.linalg.Vectors为作者工作。我已经能够确认火花库本身没有加载到环境中。通常，我会下载包，然后import。但对VM来说是新手，我不知道如何实现这一目标。

我也没试过import。它会抛出一个错误：

pip install spark

但是在虚拟机中，我看不到外部访问CLI的能力。

我确实找到了this，但我认为我没有不匹配的问题 - 导入DSX的问题已经涵盖，但我不能完全解释它的情况。

我认为this是我遇到的实际问题，但它适用于sparkR而不是python。

Answer 1

看起来您正在尝试在Python笔记本中使用Scala代码。

获得火花会议：

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

这将打印Spark的版本：

spark.version

导入ML库：

from pyspark.ml import Pipeline
from pyspark.ml.clustering import KMeans
from pyspark.ml.clustering import KMeansModel
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.linalg import Vectors

注意：这使用spark.ml包。 spark.mllib包是基于RDD的库，目前处于维护模式。主ML库现在是spark.ml（基于DataFrame）。

https://spark.apache.org/docs/latest/ml-guide.html

Answer 2

DSX环境没有Spark。创建新笔记本时，必须确定它是在新环境中运行，没有Spark还是在Spark后端运行。

无法在DSX环境中导入spark

2 个答案: