count min sketch如何查找流中最常用的项? - 重击中

时间:2016-09-07 09:55:41

标签: algorithm

Count min sketch使用不同的散列函数将流中的元素映射到散列函数。如何从草图中回溯以找到最常用的项目?考虑到已经传递了足够的元素(数百万)并且我们不知道元素。

1 个答案:

答案 0 :(得分:2)

首先,为了存储数据,CMS使用成对独立的散列函数来映射其结构中的元素(将其视为表)。 其次,不支持反向过程,这是从表中区分CMS中的不同元素。

使用单独的元素作为查询,您可以使用相同的哈希函数族(点查询)检索流中的估计计数。

为了检索最频繁的项目/项目,应该使用其他数据结构,例如堆。 来自CMS论文的公寓,可以在这里找到关于您问题的快速而有用的演示文稿:http://theory.stanford.edu/~tim/s15/l/l2.pdf