应用错误收集

我想使用spark在2亿个不同的句子上获得文本相似性不同的方法。假设我有4个句子是

[“嗨，我听说过Spark”，“嗨，我听说过Spark World”， “ Logistic回归模型”，“ Logistic回归良好模型”]

我希望得到重用 [“嗨，我听说Spark了，”逻辑回归模型]

由于第一个句子与第二个句子相似，而第三个句子与第四个句子相似，这是因为Levenshtein distance：https://rosettacode.org/wiki/Levenshtein_distance

如何使用spark有效地实现它？因为数据是2亿，我很想做笛卡尔的