使用火花的文本相似性不同方法?

时间:2018-07-31 09:30:02

标签: apache-spark nlp apache-spark-sql rdd

我想使用spark在2亿个不同的句子上获得文本相似性不同的方法。假设我有4个句子是

[“嗨,我听说过Spark”,“嗨,我听说过Spark World”,    “ Logistic回归模型”,“ Logistic回归良好模型”]

我希望得到重用    [“嗨,我听说Spark了,”逻辑回归模型]

由于第一个句子与第二个句子相似,而第三个句子与第四个句子相似,这是因为Levenshtein distancehttps://rosettacode.org/wiki/Levenshtein_distance

如何使用spark有效地实现它?因为数据是2亿,我很想做笛卡尔的

0 个答案:

没有答案