在Cloudera VM 5.7和上运行spark示例

时间:2016-07-09 19:56:01

标签: machine-learning pyspark cloudera-quickstart-vm

我正在学习hadoop,机器学习和火花。我已经下载了Cloudera 5.7 Quick Start VM。我还将https://github.com/apache/spark中的示例作为zip文件下载并将其复制到Cloudera VM。我对运行机器学习以及来自https://github.com/apache/spark的任何示例都有挑战。我尝试运行简单的单词计数示例但失败了。以下是我的步骤和我得到的错误

[cloudera@quickstart.cloudera] cd / spark-master / examples / src / main / python / ml [cloudera@quickstart.cloudera] spark-submit word2vec_example.py

我尝试运行的所有示例都失败,出现以下错误。

追踪(最近一次通话):   文件“/home/cloudera/training/spark-master/examples/src/main/python/ml/word2vec_example.py”,第23行,in     来自pyspark.sql导入SparkSession

我搜索了pyspark.sql文件,但我只能找到下面的文件 cd / spark-master 找 。 -name pyspark.sql ./python/docs/pyspark.sql.rst

请告知我如何解决这些错误,以便我可以运行此示例,以加快我的机器学习和大数据。

单词计数示例的代码位于

之下

cat word2vec_example.py

public class TwoDArray {
    public static void main(String[] args) {
        int rows = 5;
        int columns = 3;
        int k = 0;
        int[][] array = new int[rows][columns];
        for (int i = 0; i < rows; i++)
            for (int j = 0; j < columns; j++) {
                array[i][j] = k;
                k++;
            }
        for (int i = 0; i < rows; i++) {
            for (int j = 0; j < columns; j++) {
                System.out.print(array[i][j] + " ");
            }
            System.out.println();
        }
    }
}

1 个答案:

答案 0 :(得分:0)

第23行:spark = SparkSession\

SparkSession是Spark 2.0中的新功能,而Cloudera默认只附带Spark 1.6。您可以从Spark 1.6或install Spark 2.0 on Cloudera.

下载示例