重复密钥过滤

时间:2013-11-21 16:30:50

标签: hadoop duplicates distributed deduplication

我正在寻找一种分布式解决方案来实时筛选/过滤大量密钥。我的应用程序每天生成超过1000亿条记录,我需要一种方法来过滤流中的重复项。我正在寻找一个系统来存储10天的滚动密钥,每个密钥大约100个字节。我想知道在使用Hadoop之前这种类型的大规模问题是如何解决的。 HBase是否是正确的解决方案?有没有人尝试过像Zookeeper这样的部分内存解决方案?

2 个答案:

答案 0 :(得分:4)

我可以看到你的问题的一些解决方案,但实时要求确实缩小了它。实时的意思是你想知道一个密钥是否在创建时是重复的?

让我们来谈谈每秒的查询。你说100B /天(这很多,恭喜!)。这是每秒115万次查询(100,000,000,000 / 24/60/60)。我不确定HBase能不能解决这个问题。您可能想要考虑像Redis(可能是分片)或Membase / memcached或类似的东西。

如果您要在HBase中执行此操作,我只需将万亿键(10天x 100B键)的向上按键作为表中的键,并在其中放置一些值来存储它(因为您有至)。然后,您可以直接判断密钥是否在那里。这是一种很好的方式,并没有充分利用hbase,因为它只是充分利用了密钥空间。因此,在这种情况下,HBase实际上是一种b树服务。我认为这不是一个好主意。

如果你放松约束而不必做实时,你可以批量使用MapReduce进行重复数据删除。这很简单:它只是字数不计算。您按键所分组,然后如果有多个值返回,您将在reducer中看到重复项。有足够的节点足够的延迟,您可以有效地解决这个问题。以下是MapReduce设计模式书中的一些示例代码:https://github.com/adamjshook/mapreducepatterns/blob/master/MRDP/src/main/java/mrdp/ch3/DistinctUserDriver.java

ZooKeeper用于分布式进程通信和同步。您不希望在zookeeper中存储数万亿条记录。

因此,在我的意见中,你可以更好地使用内存键/值存储(如redis),但是你很难将这么多数据存储在内存中。 / p>

答案 1 :(得分:1)

我担心传统系统是不可能的:|

这是你提到的:

  1. 每天1000亿意味着每秒近100万!!!!
  2. 密钥的大小为100字节。
  3. 你想检查10天工作集中的重复项是否意味着1万亿项。
  4. 这些假设导致查找一组1万亿个对象,这些对象的总体大小为90个TERABYTES !!!!! 对这个实时问题的任何解决方案都应该提供一个系统,在这个数据量中每秒可以查找100万个项目。 我对HBase,Cassandra,Redis和Memcached有一些经验。我确信U无法在任何基于磁盘的存储上实现此性能,如HBase,Cassandra或HyperTable(并添加任何RDBMS,如MySQL,PostgreSQl和......)。我实际听到的redis和memcached的最佳性能是在一台机器上每秒大约100k次操作。这意味着U必须有90台机器,每台机器有1个TERABYTES的RAM !!!!!!!!
    即使像Hadoop这样的批处理系统也不能在一个小时内完成这项工作,我想即使是100台机器的大型集群也需要数小时和数天。

    U R谈论非常非常大的数字(90 TB,每秒1M)。你肯定这个???