我想使用spark在2亿个不同的句子上获得文本相似性不同的方法。假设我有4个句子是
[“嗨,我听说过Spark”,“嗨,我听说过Spark World”, “ Logistic回归模型”,“ Logistic回归良好模型”]
我希望得到重用 [“嗨,我听说Spark了,”逻辑回归模型]
由于第一个句子与第二个句子相似,而第三个句子与第四个句子相似,这是因为Levenshtein distance:https://rosettacode.org/wiki/Levenshtein_distance
如何使用spark有效地实现它?因为数据是2亿,我很想做笛卡尔的