我正在尝试从spark.mllib导入KMeans和Vectors类。该平台是带有python 3.5的IBM Cloud(DSX)和Junyper Notebook。
我试过了:
contains
我找到了几个示例/教程,第一个import org.apache.spark.mllib.linalg.Vectors
import apache.spark.mllib.linalg.Vectors
import spark.mllib.linalg.Vectors
为作者工作。我已经能够确认火花库本身没有加载到环境中。通常,我会下载包,然后import
。但对VM来说是新手,我不知道如何实现这一目标。
我也没试过import
。它会抛出一个错误:
pip install spark
但是在虚拟机中,我看不到外部访问CLI的能力。
我确实找到了this,但我认为我没有不匹配的问题 - 导入DSX的问题已经涵盖,但我不能完全解释它的情况。
我认为this是我遇到的实际问题,但它适用于sparkR而不是python。
答案 0 :(得分:0)
看起来您正在尝试在Python笔记本中使用Scala代码。
获得火花会议:
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
这将打印Spark的版本:
spark.version
导入ML库:
from pyspark.ml import Pipeline
from pyspark.ml.clustering import KMeans
from pyspark.ml.clustering import KMeansModel
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.linalg import Vectors
注意:这使用spark.ml包。 spark.mllib包是基于RDD的库,目前处于维护模式。主ML库现在是spark.ml(基于DataFrame)。
答案 1 :(得分:0)
DSX环境没有Spark。创建新笔记本时,必须确定它是在新环境中运行,没有Spark还是在Spark后端运行。