应用错误收集

Redis上的URL过滤：Bloom过滤器或HyperLogLog数据结构

时间：2019-02-22 11:01:18

标签： redis bloom-filter hyperloglog

我想在Redis数据库之上为分布式爬网系统实现URL过滤（例如，不要两次访问相同的URL，因此我需要以某种方式以最少的内存指纹来跟踪所有这些URL，因此无需要存储完整的URL，只需检查是否已访问某些特定的URL）。在这种情况下，Bloom过滤器听起来很不错，我看到了Redis的本机模块实现Bloom过滤器。但是它也具有内置的HyperLogLog数据结构，因此我想知道哪种方案在我的方案中是更好的选择。

1 个答案:

答案 0 :(得分：1)

布鲁姆过滤器与HyperLogLog完全不同。布隆过滤器用于检查是否有重复的项目，而HyperLogLog用于计数。在这种情况下，您应该使用Bloom过滤器。

另请参见this question。

Bloom Filters如何帮助确定URL是否已被抓取？
Redis中PFADD的返回值
BloomFilters的数据结构互补
使用逻辑表达式的组合过滤大量数据
如何存储独特的＆＃34;喜欢＆＃34;或＆＃34;观点＆＃34;或规模大小？
Redshift的Postgresql-hll（或其他Hyperloglog数据类型/结构）
如何在Redis HyperLogLog
Redis上的HyperLogLog实现无法识别
概率数据结构和草图之间有什么区别？
Redis上的URL过滤：Bloom过滤器或HyperLogLog数据结构

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？