我似乎在网上有大量的算法和函数用于从唯一项目列表中生成任意大小的唯一组合,但是在非唯一项目列表的情况下没有可用的(即包含相同值重复的列表。)
问题是如何在生成器函数中生成ON-THE-FLY 来自非唯一列表的唯一组合没有 计算昂贵的需要过滤重复?
现在,由于对这个问题有一个很有动力的答案,因此更容易提供我期望实现的目标:
首先,让我们提供一些代码,说明如何检查组合comboB
是否与另一个组合comboA
重复:
comboA = [1,2,2]
comboB = [2,1,2]
print("B is a duplicate of A:", comboA.sort()==comboB.sort())
在B的给定示例中,A是A的副本,print()打印 True 。
在非唯一列表的情况下获得能够即时提供唯一组合的生成器函数的问题在这里解决:Getting unique combinations from a non-unique list of items, FASTER?,但是提供的生成器函数需要查找并且需要内存导致问题的原因如果有大量的组合。
在当前版本的答案提供功能完成工作没有任何查找,似乎是正确的答案,但是......
摆脱查找的目标是在列表重复的情况下加速生成唯一组合。
我最初(编写这个问题的第一个版本)错误地认为,不需要创建用于确保唯一性所需的查找集的代码可能比需要查找的代码具有优势。 情况并非如此。至少并非总是如此。截至目前提供的答案中的代码不使用查找,但是如果没有冗余列表或者列表中只有少量冗余项,则需要花费更多时间来生成所有组合。
这里有一些时间来说明当前的情况:
-----------------
k: 6 len(ls): 48
Combos Used Code Time
---------------------------------------------------------
12271512 len(list(combinations(ls,k))) : 2.036 seconds
12271512 len(list(subbags(ls,k))) : 50.540 seconds
12271512 len(list(uniqueCombinations(ls,k))) : 8.174 seconds
12271512 len(set(combinations(sorted(ls),k))): 7.233 seconds
---------------------------------------------------------
12271512 len(list(combinations(ls,k))) : 2.030 seconds
1 len(list(subbags(ls,k))) : 0.001 seconds
1 len(list(uniqueCombinations(ls,k))) : 3.619 seconds
1 len(set(combinations(sorted(ls),k))): 2.592 seconds
以上时间说明了两个极端:没有重复,只有重复。所有其他时间都在这两个之间。
我对上述结果的解释是纯Python函数(没有itertools或其他C编译模块)可以非常快,但它也可能慢得多,具体取决于列表中有多少重复项。因此,可能无法为提供所需功能的Python .so扩展模块编写C ++代码。
答案 0 :(得分:4)
您可以预处理输入列表,而不是对输出进行后处理/过滤。这样,您可以避免首先生成重复项。预处理涉及对输入进行排序(或使用collections.Counter
)。一种可能的递归实现是:
def subbags(bag, k):
a = sorted(bag)
n = len(a)
sub = []
def index_of_next_unique_item(i):
j = i + 1
while j < n and a[j] == a[i]:
j += 1
return j
def combinate(i):
if len(sub) == k:
yield tuple(sub)
elif n - i >= k - len(sub):
sub.append(a[i])
yield from combinate(i + 1)
sub.pop()
yield from combinate(index_of_next_unique_item(i))
yield from combinate(0)
bag = [1, 2, 3, 1, 2, 1]
k = 3
i = -1
print(sorted(bag), k)
print('---')
for i, subbag in enumerate(subbags(bag, k)):
print(subbag)
print('---')
print(i + 1)
输出:
[1, 1, 1, 2, 2, 3] 3
---
(1, 1, 1)
(1, 1, 2)
(1, 1, 3)
(1, 2, 2)
(1, 2, 3)
(2, 2, 3)
---
6
需要一些堆栈空间用于递归,但是这个+对输入进行排序应该比生成和丢弃重复使用更少的时间+内存。
答案 1 :(得分:2)
目前最先进的技术灵感来自50个而不是100个代表奖励(而不是完全用C语言编写的Python扩展模块):
一种有效的算法和实现,在最佳(和平均)情况下优于明显的
(set + combinations)
方法,并且在最坏的情况下与之竞争。
似乎有可能使用一种&#34;假装它来实现这个要求&#34;做法。当前最先进的技术是有两种生成器函数算法可用于解决在非唯一列表的情况下获得唯一组合的问题。下面提供的算法将它们两者结合起来,因为它似乎存在列表中唯一项目百分比的阈值,可用于两种算法之间的适当切换。独特性百分比的计算是通过如此微小的计算时间来完成的,由于所采用的时间的共同变化,它甚至没有清楚地显示在最终结果中。
def iterFastUniqueCombos(lstList, comboSize, percUniqueThresh=60):
lstListSorted = sorted(lstList)
lenListSorted = len(lstListSorted)
percUnique = 100.0 - 100.0*(lenListSorted-len(set(lstListSorted)))/lenListSorted
lstComboCandidate = []
setUniqueCombos = set()
def idxNextUnique(idxItemOfList):
idxNextUniqueCandidate = idxItemOfList + 1
while (
idxNextUniqueCandidate < lenListSorted
and
lstListSorted[idxNextUniqueCandidate] == lstListSorted[idxItemOfList]
): # while
idxNextUniqueCandidate += 1
idxNextUnique = idxNextUniqueCandidate
return idxNextUnique
def combinate(idxItemOfList):
if len(lstComboCandidate) == sizeOfCombo:
yield tuple(lstComboCandidate)
elif lenListSorted - idxItemOfList >= sizeOfCombo - len(lstComboCandidate):
lstComboCandidate.append(lstListSorted[idxItemOfList])
yield from combinate(idxItemOfList + 1)
lstComboCandidate.pop()
yield from combinate(idxNextUnique(idxItemOfList))
if percUnique > percUniqueThresh:
from itertools import combinations
allCombos = combinations(lstListSorted, comboSize)
for comboCandidate in allCombos:
if comboCandidate in setUniqueCombos:
continue
yield comboCandidate
setUniqueCombos.add(comboCandidate)
else:
yield from combinate(0)
#:if/else
#:def iterFastUniqueCombos()
以下提供的时序表明上述iterFastUniqueCombos()
生成器功能提供了明显的优势
超过uniqueCombinations()
变体,以防该列表具有少于60%的独特元素,并且不会更差
基于(set + combinations)
的{{1}}生成器函数在相反的情况下,它比uniqueCombinations()
生成函数快得多(由于之间切换)
对于列表中唯一元素的数量,iterUniqueCombos()
和(set + combinations)
变体的阈值为60%:
(no lookups)