我是数据挖掘和ML的新手。我想了解LSH的k-means有多么不同。在阅读了几篇在线提供的论文和其他资料后,似乎两种算法都试图实现类似文档的分组/聚类。对于垃圾邮件检测等用例,其中任何一种都被用于许多论文中。但是我不太清楚它们是如何不同的,如果我们将它用于垃圾邮件检测这样的用例,那么结果会有什么不同呢?
答案 0 :(得分:1)
LSH不会对您的数据进行聚类。
适用于近似重复(!)检测。
LSH 真的关于"几乎相同"对象,而不是在数据中找到更大的结构。
我不认为垃圾邮件检测是一个很好的用例 - 你知道任何垃圾邮件过滤器实际上会这样做吗? 例如,近似重复的新闻检测。然而谷歌新闻与某种LSH有关;据说他们正在使用minhashing。