一组(非不相交)集的数据结构

时间:2014-04-02 23:36:53

标签: algorithm data-structures

我正在寻找一个大致对应于(用Java术语)Map<Set<int>, double>的数据结构。基本上是一组标记的大理石,其中每组大理石与标量相关联。我希望它能够有效地处理以下操作:

  • 为每个集合添加一个给定的整数。
  • 删除包含(或不包含)给定整数的每个集合,或者至少将关联的double设置为0.
  • 联合其中两张地图,将两者中出现的集合的双打加在一起。
  • 将所有双打乘以给定的双精度。
  • 很少会迭代整个地图。

在以下条件下:

  • 整数将在一个约束范围内(1到10,000左右);准确的范围将在编译时知道。
  • 范围内的大多数整数(80-90%)将永远不会被使用,但在计算结束之前哪些整数将无法轻易确定。
    • 使用的整数数量几乎总是超过100个。
  • 许多套装都非常相似,只有几个元素不同。
  • 有可能识别经常仅按顺序出现的某些整数组:例如,如果一个集合包含整数27和29,那么它(几乎?)当然也包含28个整数。
    • 可以在运行计算之前识别这些组。
    • 这些组通常有100个左右的整数。

我考虑过尝试,但我没有看到一个好方法来处理&#34;删除包含给定整数的每个集合&#34;操作

此数据结构的目的是表示离散随机变量,并允许对它们进行加法,乘法和标量乘法运算。这些离散随机变量中的每一个最终都是通过将这些操作应用于固定的(在编译时)一组独立的伯努利随机变量(即每个都以一定概率取值1或0)来创建的。

被建模的系统 close 可以表示为时间不均匀的马尔可夫链(当然会极大地简化这种情况)但不幸的是,跟踪各种转换后的持续时间至关重要。

1 个答案:

答案 0 :(得分:1)

这是一个数据结构,可以非常有效地完成所有操作:

我将把它称为 BitmapArray 来解释这个问题。

考虑一下,显然对于你所描述的操作一个带有位图作为键和权重(你的双打)作为值的排序数组将非常有效。

位图是维护集合中成员资格的内容。由于您说集合中的整数范围在1-10,000之间,因此我们可以使用长度为10,000的位图来维护任何集合的信息。

对于一个数组来说很难排序,其中键可以大到2 ^ 10000,但你可以通过以下方式实现比较功能:

  • 在两个位图上从左到右迭代
  • 对每个索引上的位进行异或
  • 假设你在第i个位置获得1分
  • 无论哪个位图在第i个位置都有1个
  • 如果你从来没有得到1他们是平等的

我知道这仍然是一个缓慢的比较。 但不要太慢,Here是我在长度为10000的位图上做的基准小提琴。 这是在Javascript中,如果您要用Java编写,它将会表现更好。

    function runTest() {
    var num = document.getElementById("txtValue").value;
    num = isNaN(num * 1) ? 0 : num * 1;

    /*For integers in the range 1-10,000 the worst case for comparison are any equal integers which will cause the comparision to iterate over the whole BitArray*/
    bitmap1 = convertToBitmap(10000, num);
    bitmap2 = convertToBitmap(10000, num);

    before = new Date().getMilliseconds();
    var result = firstIsGreater(bitmap1, bitmap2, 10000);
    after = new Date().getMilliseconds();
    alert(result + " in time: " + (after-before) + " ms");

}


function convertToBitmap(size, number) {
    var bits = new Array();
    var q = number;
    do {
        bits.push(q % 2);
        q = Math.floor(q / 2);
    } while (q > 0);


    xbitArray = new Array();
    for (var i = 0; i < size; i++) {
        xbitArray.push(0);
    }

    var j = xbitArray.length - 1;
    for (var i = bits.length - 1; i >= 0; i--) {
        xbitArray[j] = bits[i];
        j--
    }
    return xbitArray;
}

function firstIsGreater(bitArray1, bitArray2, lengthOfArrays) {
    for (var i = 0; i < lengthOfArrays; i++) {
        if (bitArray1[i] ^ bitArray2[i]) {
            if (bitArray1[i]) return true;
            else return false;
        }
    }
    return false;
}

document.getElementById("btnTest").onclick = function (e) {
    runTest();
};

另外,请记住,在构建BitmapArray时(或者在使用工会时),您只需执行一次操作,然后对于您最常执行的操作,它将变得非常高效:

注意:N是BitmapArray的长度。

为每个集合添加整数:最差/最佳情况O(N)时间。在每个位图中翻转0到1。

删除包含给定整数的每个集合:最差情况O(N)时间。

  • 对于每个位图,检查表示给定整数的位,如果1表示它是索引。
  • 通过删除所有标记的索引来压缩数组。

如果你只是将权重设置为0就可以了,那就更有效了。如果要删除给定集合中包含任何元素的所有集合,这也会非常容易。

两张地图联盟:最差情况O(N1 + N2)时间。就像合并两个已排序的数组一样,除了你必须再次明智地进行比较。

将所有双打乘以给定的双倍:最差/最佳情况O(N)时间。将每个值迭代并乘以输入double。

迭代BitmapArray :下一个元素的最差/最佳情况O(1)时间。