我正在学习hadoop,机器学习和火花。我已经下载了Cloudera 5.7 Quick Start VM。我还将https://github.com/apache/spark中的示例作为zip文件下载并将其复制到Cloudera VM。我对运行机器学习以及来自https://github.com/apache/spark的任何示例都有挑战。我尝试运行简单的单词计数示例但失败了。以下是我的步骤和我得到的错误
[cloudera@quickstart.cloudera] cd / spark-master / examples / src / main / python / ml [cloudera@quickstart.cloudera] spark-submit word2vec_example.py
我尝试运行的所有示例都失败,出现以下错误。
追踪(最近一次通话): 文件“/home/cloudera/training/spark-master/examples/src/main/python/ml/word2vec_example.py”,第23行,in 来自pyspark.sql导入SparkSession
我搜索了pyspark.sql文件,但我只能找到下面的文件 cd / spark-master 找 。 -name pyspark.sql ./python/docs/pyspark.sql.rst
请告知我如何解决这些错误,以便我可以运行此示例,以加快我的机器学习和大数据。
单词计数示例的代码位于
之下cat word2vec_example.py
public class TwoDArray {
public static void main(String[] args) {
int rows = 5;
int columns = 3;
int k = 0;
int[][] array = new int[rows][columns];
for (int i = 0; i < rows; i++)
for (int j = 0; j < columns; j++) {
array[i][j] = k;
k++;
}
for (int i = 0; i < rows; i++) {
for (int j = 0; j < columns; j++) {
System.out.print(array[i][j] + " ");
}
System.out.println();
}
}
}
答案 0 :(得分:0)
第23行:spark = SparkSession\
SparkSession是Spark 2.0中的新功能,而Cloudera默认只附带Spark 1.6。您可以从Spark 1.6或install Spark 2.0 on Cloudera.
下载示例