我有一个包含两列(id
,name
)的数据框。名称列具有相关名称。例如,相关术语,相关行,行。
我想在不同的行中找到相似的名字。我已经尝试过余弦相似但无法实现这一点。
我使用pyspark计算了TF-IDF。寻找使用pyspark在不同行中获取相关名称的方法。
答案 0 :(得分:0)
你可以使用LSH(https://en.wikipedia.org/wiki/Locality-sensitive_hashing);只需哈希name
列的每一行,类似的哈希值就会显示相似的names
。