过滤匹配字符串排列的集合

时间:2017-07-01 06:17:24

标签: python algorithm permutation itertools multiset

我正在尝试使用 itertools.permutations()来返回字符串的所有排列,并仅返回属于集合的成员的那些排列字

import itertools

def permutations_in_dict(string, words): 
    '''
    Parameters
    ----------
    string : {str}
    words : {set}

    Returns
    -------
    list : {list} of {str}    

    Example
    -------
    >>> permutations_in_dict('act', {'cat', 'rat', 'dog', 'act'})
    ['act', 'cat']
    '''

我目前的解决方案在终端上工作正常,但不知何故无法通过测试用例......

return list(set([''.join(p) for p in itertools.permutations(string)]) & words)

任何帮助将不胜感激。

6 个答案:

答案 0 :(得分:113)

问题类别

您解决的问题最好描述为anagram匹配的测试。

使用Sort

的解决方案

traditional solution是对目标字符串进行排序,对候选字符串进行排序,并测试是否相等。

>>> def permutations_in_dict(string, words):
        target = sorted(string)
        return sorted(word for word in words if sorted(word) == target)

>>> permutations_in_dict('act', {'cat', 'rat', 'dog', 'act'})
['act', 'cat']

使用Multisets的解决方案

另一种方法是使用collections.Counter()进行multiset等式测试。这在算法上优于排序解决方案(O(n)O(n log n)),但除非字符串的大小很大(由于散列所有字符的成本),否则往往会丢失。

>>> def permutations_in_dict(string, words):
        target = Counter(string)
        return sorted(word for word in words if Counter(word) == target)

>>> permutations_in_dict('act', {'cat', 'rat', 'dog', 'act'})
['act', 'cat']

使用Perfect Hash的解决方案

可以通过将对应于字符串中每个可能字符的素数相乘来构造唯一的anagram签名或perfect hash

commutative property of multiplication保证哈希值对于单个字符串的任何排列都是不变的。哈希值的唯一性由fundamental theorem of arithmetic(也称为唯一素因子化定理)保证。

>>> from operator import mul
>>> primes = [2, 3, 5, 7, 11]
>>> primes += [p for p in range(13, 1620) if all(pow(b, p-1, p) == 1 for b in (5, 11))]
>>> anagram_hash = lambda s: reduce(mul, (primes[ord(c)] for c in s))
>>> def permutations_in_dict(string, words):
        target = anagram_hash(string)
        return sorted(word for word in words if anagram_hash(word) == target)

>>> permutations_in_dict('act', {'cat', 'rat', 'dog', 'act'})
['act', 'cat']

使用Permutations的解决方案

当字符串很小时,使用itertools.permutations()搜索目标字符串上的排列是合理的(在 n 长度字符串上生成排列会生成 n 阶乘候选者) 。

好消息是,当 n 很小且的数量很大时,这种方法运行得非常快(因为集合成员资格测试是O(1)) :

>>> from itertools import permutations
>>> def permutations_in_dict(string, words):
        perms = set(map(''.join, permutations(string)))
        return sorted(word for word in words if word in perms)

>>> permutations_in_dict('act', {'cat', 'rat', 'dog', 'act'})
['act', 'cat']

正如OP推测的那样,使用set.intersection()可以将纯python搜索循环加速到c-speed:

>>> def permutations_in_dict(string, words):
        perms = set(map(''.join, permutations(string)))
        return sorted(words & perms)

>>> permutations_in_dict('act', {'cat', 'rat', 'dog', 'act'})
['act', 'cat']

最佳解决方案

哪种解决方案最好取决于字符串的长度和字的长度。计时将显示哪个最适合特定问题。

以下是使用两种不同字符串大小的各种方法的一些比较时序:

Timings with string_size=5 and words_size=1000000
-------------------------------------------------
0.01406    match_sort
0.06827    match_multiset
0.02167    match_perfect_hash
0.00224    match_permutations
0.00013    match_permutations_set

Timings with string_size=20 and words_size=1000000
--------------------------------------------------
2.19771    match_sort
8.38644    match_multiset
4.22723    match_perfect_hash
<takes "forever"> match_permutations
<takes "forever"> match_permutations_set

结果表明,对于小字符串,最快的方法是使用set-intersection搜索目标字符串上的排列。

对于较大的字符串,最快的方法是传统的排序和比较解决方案。

希望你发现这个小算法研究和我一样有趣。外卖是:

  • 集合,itertools和集合可以解决这类问题。
  • 大 - 哦运行时间很重要(n-factorial分解为大 n )。
  • 持续开销很重要(由于散列开销,排序会打败多个集合)。
  • 离散数学是思想的宝库。
  • 在分析和运行时间之前很难知道什么是最好的: - )

时间设置

FWIW,这是我用来运行比较时间的测试设置:

from collections import Counter
from itertools import permutations
from string import letters
from random import choice
from operator import mul
from time import time

def match_sort(string, words):
    target = sorted(string)
    return sorted(word for word in words if sorted(word) == target)

def match_multiset(string, words):
    target = Counter(string)
    return sorted(word for word in words if Counter(word) == target)

primes = [2, 3, 5, 7, 11]
primes += [p for p in range(13, 1620) if all(pow(b, p-1, p) == 1 for b in (5, 11))]
anagram_hash = lambda s: reduce(mul, (primes[ord(c)] for c in s))

def match_perfect_hash(string, words):
    target = anagram_hash(string)
    return sorted(word for word in words if anagram_hash(word) == target)

def match_permutations(string, words):
    perms = set(map(''.join, permutations(string)))
    return sorted(word for word in words if word in perms)

def match_permutations_set(string, words):
    perms = set(map(''.join, permutations(string)))
    return sorted(words & perms)

string_size = 5
words_size = 1000000

population = letters[: string_size+2]
words = set()
for i in range(words_size):
    word = ''.join([choice(population) for i in range(string_size)])
    words.add(word)
string = word                # Arbitrarily search use the last word as the target

print 'Timings with string_size=%d and words_size=%d' % (string_size, words_size)
for func in (match_sort, match_multiset, match_perfect_hash, match_permutations, match_permutations_set):
    start = time()
    func(string, words)
    end = time()
    print '%-10.5f %s' % (end - start, func.__name__)

答案 1 :(得分:12)

您只需使用collections.Counter()即可将wordsstring进行比较,而无需创建所有permutations(这会随着字符串的长度而爆炸):

from collections import Counter

def permutations_in_dict(string, words):
    c = Counter(string)
    return [w for w in words if c == Counter(w)]

>>> permutations_in_dict('act', {'cat', 'rat', 'dog', 'act'})
['cat', 'act']

注意:set是无序的,因此如果您需要特定订单,则可能需要对结果进行排序,例如: return sorted(...)

答案 2 :(得分:3)

显然你期望输出按字母顺序排序,所以这应该做:

return sorted(set(''.join(p) for p in itertools.permutations(string)) & words)

答案 3 :(得分:1)

试试这个解决方案

list(map("".join, itertools.permutations('act')))
['act', 'atc', 'cat', 'cta', 'tac', 'tca']

我们可以称之为listA

listA = list(map("".join, itertools.permutations('act')))

您的清单是ListB

listB = ['cat', 'rat', 'dog', 'act']

然后使用set intersection

list(set(listA) & set(listB))
['cat', 'act']

答案 4 :(得分:-1)

为什么甚至打扰排列?如果你把单词看作字母词典,这是一个更简单的问题。我确信理解能比这更好,但是:

    letters = dict()
    for i in word:
      letters[i] = letters.get(i, 0) + 1

对于单词然后对集合中的每个单词执行此操作,请确保每个键的值大于或等于该单词的键的值。如果是,请将其添加到您的输出中。

添加了奖励:如果您的单词列表非常长,这应该很容易并行化。

答案 5 :(得分:-1)

只是匹配字母组

set_string = set(string)    
return [w for w in words if set(w) == set_string]

以下是最高答案(Python 3.6)的时间安排

0.06000    match_multiset
0.02201    match_perfect_hash
0.00900    match_sort
0.00600    comprehension  <-- This answer
0.00098    match_permutations
0.00000    match_permutations_set