用于同步多个项目集合的高效数据结构和策略

时间:2013-11-16 14:54:09

标签: c performance data-structures delta

我想要一个单一类型的项目的主要集合,随着时间的推移进行修改。多个从属集合将定期与主集合同步。主要集合应该将项目的增量发送到从属集合。

Primary Collection: A, C, D
Slave Collection 1: A, C    (add D)
Slave Collection 2: A, B    (add C, D; remove B)

奴隶馆藏不能自己添加或删除项目,它们可能存在于不同的过程中,因此我可能会使用管道来推送数据。

我不想推送超过必要的数据,因为收集可能会变得非常大。

哪种数据结构和策略对此非常理想?

2 个答案:

答案 0 :(得分:1)

  • 如果没有推送所有数据,则需要排序日志,而不是使用管道带宽,而是使用主内存。在CPU和CPU之间找到良好平衡的参数内存使用率将是“推送”频率。
  • 从您的问题来看,我认为,您有多个奴隶程序。在这种情况下,主进程中具有双缓冲的一些共享内存或CMA(Linux)方法应该远远超过多个管道,因为它甚至不需要多线程推送,这将用于优化整个管道同步期间的吞吐量
    可以使用全局同步屏障通知从进程,无需复制即可从masterCollectionA读取,而master可以修改masterCollectionB(使用masterCollectionA中的副本初始化),反之亦然。对集合的访问应该在从属和主服务器之间互锁。奴隶可以复制该集合(快照),如果它们会阻止它通过来自master的下一次更新尝试,从而允许它继续。可以使用针对单个元素的写策略的副本来实现从属进程中的修改。这种协作方法实现起来相当简单,如果从属进程每次都不复制整个快照,整体内存消耗很低。

答案 1 :(得分:1)

为此,我使用differential execution

(顺便说一句,“奴隶”一词对某些人来说是不舒服的,有理由。)

对于每个远程站点,主站点上都有一个顺序文件,表示远程站点上存在的内容。

主站点上有一个遍历主集合的过程,当它遍历时,它会读取相应的文件,检测远程站点上当前存在的内容与应存在的内容之间的差异。 这些差异会产生增量,这些增量会传输到远程站点。 同时,该过程会写入一个新文件,表示在处理增量后远程站点上将存在的内容。

这样做的好处是它不依赖于检测主要集合中的更改事件,因为这些更改事件通常是不可靠的,或者可能是自动取消或与其他更改无关,因此您可以减少不必要的传输远程站点。

如果集合是简单的事物列表,那么归结为拥有远程集合的本地副本并运行diff算法来获取增量。 这里有几个这样的算法:

如果可以对集合进行排序(如A,B,C示例),只需运行合并循环:

while(ix<nx && iy<ny){
  if (X[ix] < Y[iy]){
    // X[ix] was inserted in X
    ix++;
  } else if (Y[iy] < X[ix]){
    // Y[iy] was deleted from X
    iy++;
  } else {
    // the two elements are equal. skip them both;
    ix++; iy++;
  }
}
while(ix<nx){
  // X[ix] was inserted in X
  ix++;
}
while(iy<ny>){
  // Y[iy] was deleted from X
  iy++;
}

如果无法对集合进行排序(请注意与Levenshtein distance的关系),

Until we have read through both collections X and Y,
  See if the current items are equal

  else see if a single item was inserted in X
  else see if a single item was deleted from X

  else see if 2 items were inserted in X
  else see if a single item was replaced in X
  else see if 2 items were deleted from X

  else see if 3 items were inserted in X
  else see if 2 items in X replaced 1 items in Y
  else see if 1 items in X replaced 2 items in Y
  else see if 3 items were deleted from X

  etc. etc. up to some limit

性能通常不是问题,因为该过程不必以高频率运行。

crude video demonstrating this conceptsource code where it is used for dynamically changing user interfaces