在Pyspark中查找相关的文档名称

时间:2018-02-23 10:43:42

标签: python pyspark pyspark-sql

我有一个包含两列(idname)的数据框。名称列具有相关名称。例如,相关术语,相关行,行。

我想在不同的行中找到相似的名字。我已经尝试过余弦相似但无法实现这一点。

我使用pyspark计算了TF-IDF。寻找使用pyspark在不同行中获取相关名称的方法。

1 个答案:

答案 0 :(得分:0)

你可以使用LSH(https://en.wikipedia.org/wiki/Locality-sensitive_hashing);只需哈希name列的每一行,类似的哈希值就会显示相似的names