我已经在python中编写了这个中位数算法算法的实现,但是它似乎没有输出正确的结果,而且对我来说似乎也没有线性复杂性,任何我离开轨道的想法?
def select(L):
if len(L) < 10:
L.sort()
return L[int(len(L)/2)]
S = []
lIndex = 0
while lIndex+5 < len(L)-1:
S.append(L[lIndex:lIndex+5])
lIndex += 5
S.append(L[lIndex:])
Meds = []
for subList in S:
print(subList)
Meds.append(select(subList))
L2 = select(Meds)
L1 = L3 = []
for i in L:
if i < L2:
L1.append(i)
if i > L2:
L3.append(i)
if len(L) < len(L1):
return select(L1)
elif len(L) > len(L1) + 1:
return select(L3)
else:
return L2
该函数的调用如下:
L = list(range(100))
shuffle(L)
print(select(L))
LE:抱歉。 GetMed是一个简单地对列表进行排序并返回len(list)元素的函数,它应该在那里选择,我现在修复它,但我仍然得到错误的输出。至于缩进,代码工作没有错误,我认为它没有错: - ??
LE2:我期待50(对于当前的L),它给我输出30到70,不多不少(还)
LE3:非常感谢,这就是现在的诀窍。我很困惑,我正在尝试对这个方法和天真的方法进行比较,我只是对数组进行排序并输出结果。现在,从我到目前为止所读到的,select方法的时间复杂度应为O(n)Deterministic Selection。虽然我可能无法与python开发人员的优化竞争,但我确实期望得到比我更接近的结果,例如,如果我将列表的范围更改为10000000,则选择输出结果为84.10837116255952秒而sort和return方法是在18.92556029528825。有什么好方法可以让这个算法更快?
答案 0 :(得分:2)
1)你的代码缩进是错误的,试试这个:
def select(L):
if len(L) < 10:
L.sort()
return L[int(len(L)/2)]
S = []
lIndex = 0
while lIndex+5 < len(L)-1:
S.append(L[lIndex:lIndex+5])
lIndex += 5
S.append(L[lIndex:])
Meds = []
for subList in S:
print(subList)
Meds.append(select(subList))
L2 = select(Meds)
L1 = L3 = []
for i in L:
if i < L2:
L1.append(i)
if i > L2:
L3.append(i)
if len(L) < len(L1):
return select(L1)
elif len(L) > len(L1) + 1:
return select(L3)
else:
return L2
2)你使用的方法不返回中位数,它只返回一个距离中位数不远的数字。要获得中位数,您需要计算多少数量大于伪中位数,如果多数为大,则重复算法的数字大于伪中位数,否则重复其他数字。
def select(L, j):
if len(L) < 10:
L.sort()
return L[j]
S = []
lIndex = 0
while lIndex+5 < len(L)-1:
S.append(L[lIndex:lIndex+5])
lIndex += 5
S.append(L[lIndex:])
Meds = []
for subList in S:
Meds.append(select(subList, int((len(subList)-1)/2)))
med = select(Meds, int((len(Meds)-1)/2))
L1 = []
L2 = []
L3 = []
for i in L:
if i < med:
L1.append(i)
elif i > med:
L3.append(i)
else:
L2.append(i)
if j < len(L1):
return select(L1, j)
elif j < len(L2) + len(L1):
return L2[0]
else:
return select(L3, j-len(L1)-len(L2))
警告:L = M = []
不是L = []
和M = []
答案 1 :(得分:0)
以下是我的PYTHON实施。为了提高速度,您可能希望改用PYPY。
关于SPEED的问题: 每列5个数字的理论速度为~10N,因此每列使用15个数字,在5N时使用2X速度,而最佳速度为~4N。但是,对于最先进的解决方案的最佳速度,我可能是错的。在我自己的测试中,我的程序运行速度略快于使用sort()的程序。当然,您的里程可能会有所不同。
假设python程序是“median.py”,运行它的一个例子是“python ./median.py 100”。对于速度基准测试,您可能希望注释掉验证代码,并使用PYPY。
#!/bin/python
#
# TH @stackoverflow, 2016-01-20, linear time "median of medians" algorithm
#
import sys, random
items_per_column = 15
def find_i_th_smallest( A, i ):
t = len(A)
if(t <= items_per_column):
# if A is a small list with less than items_per_column items, then:
# 1. do sort on A
# 2. return the i-th smallest item of A
#
return sorted(A)[i]
else:
# 1. partition A into columns of items_per_column items each. items_per_column is odd, say 15.
# 2. find the median of every column
# 3. put all medians in a new list, say, B
#
B = [ find_i_th_smallest(k, (len(k) - 1)/2) for k in [A[j:(j + items_per_column)] for j in range(0,len(A),items_per_column)]]
# 4. find M, the median of B
#
M = find_i_th_smallest(B, (len(B) - 1)/2)
# 5. split A into 3 parts by M, { < M }, { == M }, and { > M }
# 6. find which above set has A's i-th smallest, recursively.
#
P1 = [ j for j in A if j < M ]
if(i < len(P1)):
return find_i_th_smallest( P1, i)
P3 = [ j for j in A if j > M ]
L3 = len(P3)
if(i < (t - L3)):
return M
return find_i_th_smallest( P3, i - (t - L3))
# How many numbers should be randomly generated for testing?
#
number_of_numbers = int(sys.argv[1])
# create a list of random positive integers
#
L = [ random.randint(0, number_of_numbers) for i in range(0, number_of_numbers) ]
# Show the original list
#
print L
# This is for validation
#
print sorted(L)[int((len(L) - 1)/2)]
# This is the result of the "median of medians" function.
# Its result should be the same as the validation.
#
print find_i_th_smallest( L, (len(L) - 1) / 2)