使用Python的字符串子字符串

时间:2012-10-17 23:35:42

标签: python string substring

您可以使用abcd这样的字符串制作多少substrings

如何获得所有子字符串:

['a', 'b', 'c', 'd', 'ab', 'bc', 'cd', 'abc', 'bcd', 'abcd']

5 个答案:

答案 0 :(得分:11)

试试这个:

def consecutive_groups(iterable):
    s = tuple(iterable)
    for size in range(1, len(s)+1):
        for index in range(len(s)+1-size):
            yield iterable[index:index+size]

>>> print list(consecutive_groups('abcd'))
['a', 'b', 'c', 'd', 'ab', 'bc', 'cd', 'abc', 'bcd', 'abcd']

组合的数量简单地等于从1到字符串长度的总和,相当于n * (n + 1) / 2

顺便说一句,如果你想避免重复,你可以简单地在生成器函数中使用本地定义的集合,如下所示:

def consecutive_groups(iterable):
    s = tuple(iterable)
    seen = set()
    for size in range(1, len(s)+1):
        for index in range(len(s)+1-size):
            slc = iterable[index:index+size]
            if slc not in seen:
                seen.add(slc)
                yield slc

该代码有点笨拙,可能会针对缩进进行优化,但它可以用于概念验证。

答案 1 :(得分:10)

这会吗?

import itertools
def substrings(x):
    for i, j in itertools.combinations(xrange(len(x)+1), 2):
        yield x[i:j]

或作为生成器表达式:

(x[i:j] for i, j in itertools.combinations(xrange(len(x)+1), 2))

您的示例的展开结果如下所示:

['a', 'ab', 'abc', 'abcd', 'b', 'bc', 'bcd', 'c', 'cd', 'd']

要按长度排序,请使用排序key=len

答案 2 :(得分:2)

这就是你想要的:

In [260]: S = 'abcd'

In [261]: list(itertools.chain.from_iterable([list(itertools.combinations(S,i)) for i in range(1,len(S))]))
Out[261]: 
[('a',),
 ('b',),
 ('c',),
 ('d',),
 ('a', 'b'),
 ('a', 'c'),
 ('a', 'd'),
 ('b', 'c'),
 ('b', 'd'),
 ('c', 'd'),
 ('a', 'b', 'c'),
 ('a', 'b', 'd'),
 ('a', 'c', 'd'),
 ('b', 'c', 'd')]

或者如果你真的希望它们都是字符串,你可以这样做:

In [262]: combos  = list(itertools.chain.from_iterable([list(itertools.combinations(S,i)) for i in range(1,len(S))]))

In [263]: [''.join(c) for c in combos]
Out[263]: 
['a',
 'b',
 'c',
 'd',
 'ab',
 'ac',
 'ad',
 'bc',
 'bd',
 'cd',
 'abc',
 'abd',
 'acd',
 'bcd']

编辑仅获取S 的子字符串:

In [270]: list(itertools.chain.from_iterable([[S[i:i+k] for i in range(len(S)-k)] for k in range(1,len(S)+1)])) + [S]
Out[270]: ['a', 'b', 'c', 'ab', 'bc', 'abc', 'abcd']

答案 3 :(得分:2)

我认为这也有效,虽然不是最有效的,但它具有使用不太复杂的功能的吸引力。

S = "abcd"
substrings = [S[i:j] for i in range(len(S)) for j in range(i+1,len(S)+1)]
substrings.sort(key=len)

但请注意,此方法不会删除可能出现的相同子字符串。例如,如果原始子字符串为"abcdab",则abab会出现两次。

答案 4 :(得分:1)

那里有两个问题。

第一个,How many substrings can you make out of a string like “abcd”?是这样的组合:

import itertools
s='abcd'
com=[list(itertools.combinations(s,x)) for x in range(1,len(s)+1)]

print [''.join(e) for e in sum(com,[])]

打印:

['a', 'b', 'c', 'd', 'ab', 'ac', 'ad', 'bc', 'bd', 'cd', 'abc', 'abd', 'acd', 'bcd', 'abcd']

第二个问题是如何复制您的示例(这不是'组合')。您可以使用此代码执行此操作:

>>> [s[i:i+j] for j in range(1,len(s)+1) for i in range(len(s)-j+1)]
['a', 'b', 'c', 'd', 'ab', 'bc', 'cd', 'abc', 'bcd', 'abcd']