应用错误收集

例如

 List<Row> data = Arrays.asList(
    RowFactory.create(0, "Hi I heard about Spark"),
    RowFactory.create(1,"I wish Java could use case classes"),
    RowFactory.create(2,"Logistic,regression,models,are,neat"));

根据这些数据，我可以通过将每个单词分数放到每一行来创建一个向量。每一行显示不同的单词：（0，＆＃34;嗨，我听说过Spark＆＃34;），（1，＆＃34;我希望Java可以使用案例类＆＃34;），（2，＆＃34; Logistic，回归，模型，是，整洁＆＃34;）现在我需要计算一个分数来检查每对单词之间的相似性，输出应该是一个列向量。使用java中的spark（数据集）计算这个的最佳方法。

任何帮助表示感谢。

使用java在Apache Spark中计算Jaro-Winkler得分

0 个答案: