无法在DSX环境中导入spark

时间:2018-04-01 05:16:19

标签: python-3.x apache-spark ibm-cloud apache-spark-mllib data-science-experience

我正在尝试从spark.mllib导入KMeans和Vectors类。该平台是带有python 3.5的IBM Cloud(DSX)和Junyper Notebook。

我试过了:

contains

我找到了几个示例/教程,第一个import org.apache.spark.mllib.linalg.Vectors import apache.spark.mllib.linalg.Vectors import spark.mllib.linalg.Vectors 为作者工作。我已经能够确认火花库本身没有加载到环境中。通常,我会下载包,然后import。但对VM来说是新手,我不知道如何实现这一目标。

我也没试过import。它会抛出一个错误:

pip install spark

但是在虚拟机中,我看不到外部访问CLI的能力。

我确实找到了this,但我认为我没有不匹配的问题 - 导入DSX的问题已经涵盖,但我不能完全解释它的情况。

我认为this是我遇到的实际问题,但它适用于sparkR而不是python。

2 个答案:

答案 0 :(得分:0)

看起来您正在尝试在Python笔记本中使用Scala代码。

获得火花会议:

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

这将打印Spark的版本:

spark.version

导入ML库:

from pyspark.ml import Pipeline
from pyspark.ml.clustering import KMeans
from pyspark.ml.clustering import KMeansModel
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.linalg import Vectors

注意:这使用spark.ml包。 spark.mllib包是基于RDD的库,目前处于维护模式。主ML库现在是spark.ml(基于DataFrame)。

https://spark.apache.org/docs/latest/ml-guide.html

答案 1 :(得分:0)

DSX环境没有Spark。创建新笔记本时,必须确定它是在新环境中运行,没有Spark还是在Spark后端运行。