关闭二进制搜索中的一个错误(角落案例)

时间:2013-07-16 17:20:37

标签: python algorithm

我在我的二进制搜索版本中遇到了一个角落问题。我的版本将输出包含输入列表中的1的bin。该算法通过分别测试输入列表大小的一半 - 下面的代码中的上部和下部 - 来做到这一点,并且如果检测到存在1,则算法像普通二进制搜索一样移动引用并继续直到它具有找到1.该列表仅包含1和0。

N.B。有人指出,任何()都会用O(n)操作扫描(子)列表,因此看似破坏了下面算法的目的(通过测试子来识别1的位置)列表)。我正在积极寻找更好的测试,并乐于听到任何想法,但我(目前)积极地有兴趣解决这个问题。

以下是功能:

def binary_search(inList):
    low = 0
    high = len(inList)

    while low < high:
        mid = (low + high) // 2
        upper = inList[mid:high]
        lower = inList[low:mid]
        if any(lower):
            high = mid
        elif any(upper):
            low = mid+1
       else:
            # Neither side has a 1
            return -1
    return mid

以上是代码通过的单元测试:

# Test a basic case
inlist = [0] * 256
inlist[123] = 1
assert binary_search(inlist) == 123

# Test a case with odd len
inlist = [0] * 99
inlist[20] = 1
assert binary_search(inlist) == 20

# Test a case with odd len
inlist = [0] * 100
inlist[20] = 1
assert binary_search(inlist) == 20

inlist = [0]*4
inlist[1] = 1
assert binary_search(inlist) == 1

# Start
inlist = [0] * 256
inlist[0] = 1
assert binary_search(inlist) == 0

##middle
inlist = [0] * 256
inlist[128] = 1
assert binary_search(inlist) == 128

#end
inlist = [0] * 256
inlist[255] = 1
assert binary_search(inlist) == 255

#Test the case with no 1s
inlist = [0] * 8
assert binary_search(inlist) == -1

但它在这个角落案件中失败了

inlist = [0]*4
inlist[2] = 1
assert binary_search(inlist) == 2

似乎正在发生的事情是,在第一阶段,一切都按预期进行:

inList = [0,0,1,0]
upper = [1,0]
lower = [0,0]

然而在第二阶段中,高和低全部变为3和

upper = [0]
lower = []

即。 1错过了。

我在调试器中花了一个小时,并将函数修改为:

def binary_search(inList)
    low = 0
    high = len(inList) -1
    while low <= high:
        mid = low + (high - low) // 2
        if any(inList[low:mid]):    # <- this one
            high = mid - 1
        elif any(inList[mid + 1:high+1]): # <- this one
            low = mid + 1
        else:
            return mid
    return -1

现在通过了上面的所有测试(和奇怪的cornner案例),除了全0测试:

#Test the case with no 1s
inlist = [0] * 8
assert binary_search(inlist) == -1

我意识到这是愚蠢的,但我无法发现如何让函数通过两个测试。

3 个答案:

答案 0 :(得分:2)

这是你的问题:

while low <= high:
    mid = low + (high - low) // 2
    if any(inList[low:mid]):    # <- this one
        high = mid - 1
    elif any(inList[mid + 1:high+1]): # <- this one
        low = mid + 1
    else:
        return mid

考虑当您的列表包含所有0时会发生什么。 if失败,因为1inList之间的low中没有midelif也失败,因为1mid之间没有high。然后有一个else,这正是现在执行的。因此,您没有获得-1

else中没有1时,您的inList块正好是代码的一部分。因此,如果您真的想要处理所有0的情况,那么您应该使该块返回-1

但是作为旁注,我不确定你为什么要在未排序的列表上做任何类似二进制搜索的事情。

答案 1 :(得分:1)

用二进制搜索解决你的任务是不可能的。请参阅我在底部的评论。但是,你几乎正确地实现了二进制搜索,所以让我们修复它,然后讨论为什么它不适合这个问题。

这是带有评论的固定版本(原始版本)。整体结构很好,这些只是一个小问题:例如,您应该将low设置为mid而不是mid+1,否则您将错过1在mid

def binary_search(inList):
    low = 0
    high = len(inList)

    while low < high - 1:  # Iterate while there are at least 2 elements
        mid = (low + high) // 2
        upper = inList[mid:high]
        lower = inList[low:mid]
        if any(lower):
            high = mid
        elif any(upper):
            low = mid  # mid was the first element in upper, so make sure to keep it
        if low == high - 1:
            # Only one element remains now, so it must be the 1
            return low
    return -1

但是,正如您所指出的,当您运行any()时,您正在扫描列表,这会否定二进制搜索的全部内容。

二进制搜索是一种在列表中查找内容而无需查看列表中的每个元素的方法。这怎么可能呢?仅在列表已排序时。二进制搜索会像往常一样将列表重复分成两半,但只能在不检查midlower的情况下查看upper

答案 2 :(得分:1)

修复程序

你可以像这样'修复'你的程序:

def binary_search(inList):
    low = 0
    high = len(inList)

    while low + 1 < high:
        mid = (low + high) // 2
        upper = inList[mid:high]
        lower = inList[low:mid]
        if any(lower):
            high = mid
        elif any(upper):
            low = mid
        else:
            # Neither side has a 1
            return -1
    return low

我将循环条件更改为“while low + 1&lt; high”,重新分配为“low = mid”(而不是low = mid + 1),结果为“return low”。这通过了你的测试。

这样做的原因是你定义它的方式,低,中,高被更好地理解为边界而不是指数:

  item 0 item 1 item 2 item 3 item 4 item 5 item 6 item 7 item 8
 |______|______|______|______|______|______|______|______|______|
 0      1      2      3      4      5      6      7      8      9
low                         mid                                high

当您将列表拆分为两个时,您会得到两个这样的部分:

  item 0 item 1 item 2 item 3 
 |______|______|______|______|
 0      1      2      3      4
low                         mid

  item 4 item 5 item 6 item 7 item 8
 |______|______|______|______|______|
 4      5      6      7      8      9
mid                                high

如果您确定目标值位于上半部分,则可能位于这五个索引的任何中。设置low = mid + 1是没有意义的,因为这忽略了项目#4是目标项目的可能性。

最终,此算法会将其缩小到一个项目的范围。与旧算法不同,低值永远不会高。所以我们在低+ 1 ==高时停止,结果很低。 (请注意,mid尚未更新。低是我们想要的索引。)

二进制搜索

这不是人们谈论二元搜索算法时的意思!二进制搜索应用于排序列表,以查找具有目标值的元素,而无需比较列表中的每个元素。您不能将二进制搜索应用于未排序的列表。想一想 - 没有办法知道在哪里看 - 你必须检查列表中的每个项目,直到找到目标。您的算法实际上比线性搜索慢,因为它会多次扫描列表中的每个项目!