我们需要在spark的巨大数据集上计算像jaccard这样的距离矩阵。 面对几个问题。请帮助我们指示。
第1期
import info.debatty.java.stringsimilarity.Jaccard;
//sample Data set creation
List<Row> data = Arrays.asList(
RowFactory.create("Hi I heard about Spark", "Hi I Know about Spark"),
RowFactory.create("I wish Java could use case classes","I wish C# could use case classes"),
RowFactory.create("Logistic,regression,models,are,neat","Logistic,regression,models,are,neat"));
StructType schema = new StructType(new StructField[] {new StructField("label", DataTypes.StringType, false,Metadata.empty()),
new StructField("sentence", DataTypes.StringType, false,Metadata.empty()) });
Dataset<Row> sentenceDataFrame = spark.createDataFrame(data, schema);
// Distance matrix object creation
Jaccard jaccard=new Jaccard();
//Working on each of the member element of dataset and applying distance matrix.
Dataset<String> sentenceDataFrame1 =sentenceDataFrame.map(
(MapFunction<Row, String>) row -> "Name: " + jaccard.similarity(row.getString(0),row.getString(1)),Encoders.STRING()
);
sentenceDataFrame1.show();
没有编译时错误。但是获得运行时异常如下:
org.apache.spark.SparkException:任务不可序列化
第2期
此外,我们需要找到哪一对具有最高分,我们需要声明一些变量。我们也需要执行其他计算,我们面临很多困难。
即使我尝试在MapBlock中声明一个像计数器这样的简单变量,我们也无法捕获递增的值。如果我们在Map块之外声明,我们会遇到很多编译时错误。
int counter=0;
Dataset<String> sentenceDataFrame1 =sentenceDataFrame.map(
(MapFunction<Row, String>) row -> {
System.out.println("Name: " + row.getString(1));
//int counter = 0;
counter++;
System.out.println("Counter: " + counter);
return counter+"";
},Encoders.STRING()
);
请给我们指示。 谢谢。
答案 0 :(得分:1)
Jaccard jaccard = new Jaccard();
这个类是否可序列化?
在spark中,您在Transformations中编写的所有代码都在驱动程序序列化时实例化并发送给执行程序。
正如你使用lambda函数:
lambda中外部类使用的所有类都需要可序列化。
如果一个人甚至使用lambda中的外部类的方法,它期望外部类可序列化。
详细了解请参阅:
http://bytepadding.com/big-data/spark/spark-code-analysis/
http://bytepadding.com/big-data/spark/understanding-spark-serialization/
第2部分:
该问题的更多输入将有助于提供更好的答案。