使用java在Apache Spark中计算Jaro-Winkler得分

时间:2017-01-19 07:04:50

标签: apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml apache-spark-dataset

例如

 List<Row> data = Arrays.asList(
    RowFactory.create(0, "Hi I heard about Spark"),
    RowFactory.create(1,"I wish Java could use case classes"),
    RowFactory.create(2,"Logistic,regression,models,are,neat"));

根据这些数据,我可以通过将每个单词分数放到每一行来创建一个向量。每一行显示不同的单词:(0,&#34;嗨,我听说过Spark&#34;),(1,&#34;我希望Java可以使用案例类&#34;),(2,&#34; Logistic,回归,模型,是,整洁&#34;) 现在我需要计算一个分数来检查每对单词之间的相似性,输出应该是一个列向量。使用java中的spark(数据集)计算这个的最佳方法。

任何帮助表示感谢。

0 个答案:

没有答案