生成数据的最有效排序算法

时间:2016-07-25 18:23:36

标签: algorithm sorting

我有以下公式:A =(x + x0)^。5 *(y + y0)*(z + z0)^。5

x0,y0和z0对于给定的运行是常量,但可能在程序的运行之间发生变化。 x,y和z是为项目随机生成的,并且是[0,15]中的统一整数。这意味着有16 ^ 3 = 4096种可能的组合。

我试图找到获得给定A值的百分位数的最有效方法(x0,y0和z0也将被给出)。我有两个问题:

  1. 有没有办法创建一个直接求解百分位数的分析公式,而不会产生所有可能的As并对它们进行排序?
  2. 如果没有,那么对这些数据进行排序的最有效方法是什么,因为我有一些关于如何构建数据的信息?
  3. 我认为#1的答案是"没有"但如果有人能提出分析解决方案,我们会感到惊喜。继续#2,这是我目前的进展:

    将通过3个嵌套循环生成数据:

    For x = 0 to 15
       For y = 0 to 15
           For z = 0 to 15
              array(n) = A(x,y,z)
              n=n+1
           Next z
       Next y
    Next x
    

    我们知道(至少)有关此数据的3件事:

    1. array(0)<数组(1)<阵列(2)...
    2. array(0)<阵列(16)< array(32)...
    3. array(0)<数组(256)<阵列(512)...
    4. 到目前为止,我最好的工作算法是以列表大小16开头的mergesort。但是这忽略了上面的2)和3)。

      注意:我的问题是关于效率。我有一个解决方案,虽然速度很慢,但很有效,所以我正在寻找的是最有效的方法。

      编辑:这是我开始提出的解决方案,感觉它是最有效的,但它不起作用。我不确定它是否可以打捞。

      将您的值放在三维数组(x,y,z)中。从(0,0,0)开始,必须是最小值。下一个值必须是(1,0,0),(0,1,0)或(0,0,1)。测试并添加。我们说这是(1,0,0)。然后下一个值必须是(2,0,0),(0,1,0)或(0,0,1)。继续,直到您在O(n)时间内添加了所有值。

      FLAW:可能性的数量并不总是限制在3.我无法找到一种方法来告诉计算机哪些单元是可能的,而不会影响效率增益。可能有办法,但我还没有想到它。

      编辑2:我仍然对从单调函数生成的值的最有效排序算法感兴趣,因为它在理论上是一个有趣的问题。然而,由于我首先询问是否有获得百分位数的捷径,我选择了非常简单的数字"计算数字少于A"作为答案。

2 个答案:

答案 0 :(得分:2)

如果你需要知道的是 A 在排序的可能性列表中的位置,实际上不需要对可能性进行排序(O(n log n))。只计算小于或等于 A (O(n))的可能性就足够了。

在这种情况下,函数是单调的,你可以进一步减少工作:给定一些明确的值 x' z' ,你可以在A = f(x', y', z')中解决 y' 。然后你知道最大(0, min (16,楼层 y' )+ 1))三元组< x' y z' >其值小于或等于 A

这个解决方案非常简单。给定

A=(y' + y0) * ((x'+x0) * (z'+z0))^.5

我们有

y' = A / ((x'+x0) * (z'+z0))^.5 - y0

Python(可以认为是伪代码):

def gmean(x, y):
    return (x * y) ** 0.5

def count_le(A, x0, y0, z0):
    count = 0
    for x in range(16):
        for z in range(16):
            gm = gmean(x + x0, z + z0)
            if gm == 0:
                count += 16
            else:
                y = A / gm - y0
                if y >= 0:
                    count += min(16, 1 + int(y))
    return count

要将count_le的结果转换为百分位数,您必须将它乘以100/4096。

答案 1 :(得分:1)

有趣的问题!

这是一个想法,可能是也可能不是最有效的。

Initialize a min-heap with A(0, 0, 0)
numItems = 0
While True:
    A(x, y, z) = pop minimum from heap
    numItems = numItems + 1
    If A(x, y, z) matches given A value:
        break
    else:
        Add to heap A(x + 1, y, z)
        Add to heap A(x, y + 1, z)
        Add to heap A(x, y, z + 1)

请注意,您需要维护一组标志,以确保不会向堆中添加重复项。这可以在O(1)时间内完成,例如将Flags[x][y][z] = True添加到堆中时A(x,y,z)。另外一个小注释,在添加到堆时执行一些边界检查。

弹出最小值需要O(logn)次。添加到堆需要O(logn)次。因此,最坏的情况时间复杂度仍为O(nlogn)

优点是:

  • 您可以在找到给定的A值后立即停止。即,您不需要计算所有可能的A值,并且您当然不需要对它们进行排序。
  • 如果给定的A值很大,则可以使用max-heap。