在Apache Spark中使用map函数进行大量操作

时间:2017-03-09 12:50:09

标签: apache-spark dataset similarity apache-spark-2.0 apache-spark-dataset

我们需要在spark的巨大数据集上计算像jaccard这样的距离矩阵。 面对几个问题。请帮助我们指示。

第1期

    import info.debatty.java.stringsimilarity.Jaccard;

    //sample Data set creation
    List<Row> data = Arrays.asList(
                RowFactory.create("Hi I heard about Spark", "Hi I Know about Spark"),
                RowFactory.create("I wish Java could use case classes","I wish C# could use case classes"),
                RowFactory.create("Logistic,regression,models,are,neat","Logistic,regression,models,are,neat"));

    StructType schema = new StructType(new StructField[] {new StructField("label", DataTypes.StringType, false,Metadata.empty()),
                new StructField("sentence", DataTypes.StringType, false,Metadata.empty()) });
                Dataset<Row> sentenceDataFrame = spark.createDataFrame(data, schema);

                // Distance matrix object creation
                Jaccard jaccard=new Jaccard();

                //Working on each of the member element of dataset and applying distance matrix.
                Dataset<String> sentenceDataFrame1 =sentenceDataFrame.map(
                        (MapFunction<Row, String>) row -> "Name: " + jaccard.similarity(row.getString(0),row.getString(1)),Encoders.STRING()
                );
                sentenceDataFrame1.show();

没有编译时错误。但是获得运行时异常如下:

org.apache.spark.SparkException:任务不可序列化


第2期
此外,我们需要找到哪一对具有最高分,我们需要声明一些变量。我们也需要执行其他计算,我们面临很多困难。
即使我尝试在MapBlock中声明一个像计数器这样的简单变量,我们也无法捕获递增的值。如果我们在Map块之外声明,我们会遇到很多编译时错误。

    int counter=0;
        Dataset<String> sentenceDataFrame1 =sentenceDataFrame.map(
                (MapFunction<Row,  String>) row -> {
                    System.out.println("Name: " + row.getString(1));
                    //int counter = 0;
                    counter++;
                    System.out.println("Counter: " + counter);
                    return counter+"";

                },Encoders.STRING()

        );

请给我们指示。 谢谢。

1 个答案:

答案 0 :(得分:1)

Jaccard jaccard = new Jaccard();

这个类是否可序列化?

在spark中,您在Transformations中编写的所有代码都在驱动程序序列化时实例化并发送给执行程序。

正如你使用lambda函数:

  1. lambda中外部类使用的所有类都需要可序列化。

  2. 如果一个人甚至使用lambda中的外部类的方法,它期望外部类可序列化。

  3. 详细了解请参阅:

    http://bytepadding.com/big-data/spark/spark-code-analysis/

    http://bytepadding.com/big-data/spark/understanding-spark-serialization/

    第2部分:

    1. 尝试在spark中找到笛卡尔积N CROSS N.
    2. 尝试找到更聪明的算法来找到这对。
    3. 该问题的更多输入将有助于提供更好的答案。