Python:查找唯一字符串的唯一子序列

时间:2015-02-09 03:05:44

标签: python string python-3.x subsequence

编辑:对于那些贬低的人:我非常清楚我不想要代码,而且我自己已经尝试过了。我所寻找的只是对数学过程产生样本结果的解释。

第一个问题。我已经做了很多研究,最后求助了,所以如果我错过了某个地方的答案我道歉。我有一个问题,我真的很挣扎:

  

编写一个Python 3脚本,它带有三个命令行参数:

1。包含n个字符串的文本文件的名称   通过白色空间。
2。正整数k。
3。一个名字   脚本将创建的文本文件,以便存储所有可能的文件   来自输入的n个字符串中的k个唯一字符串的子序列   文件,每行一个子序列。

例如,假设   命令行是gen.py input.txt 3 output.txt和文件input.txt   包含以下行:

Python Java C ++ Java Java Python   

然后程序应该创建包含的文件output.txt   以下行(按任意顺序):

Python Java C ++
Python   C ++ Java
Java C ++ Python
C ++ Java Python

  应该在执行a时生成组合   生成器函数(即使用关键字yield)。

根据我的理解,根据样本输出,这并不完全遵循子序列的定义;它们也不是相当的排列,所以我对如何解决这个问题感到茫然。我知道如何处理文件IO和命令行参数部分,我只是无法获得正确的子序列。我不需要直接回答,因为我应该解决这个问题,但如果有人能给我一些有用的见解,我将非常感激。

1 个答案:

答案 0 :(得分:1)

如果您被允许使用itertools:

import itertools
import sys

def unique_substrings(txt_lst:list, k:int) -> set:
    return set([' '.join(combo) for combo in itertools.combinations(txt_lst, 3) \
                if len(set(combo))==3])

if __name__ == "__main__":
    infile, k, outfile = sys.argv[1:]
    with open(infile) as inf:
        txt_lst = infile.read().split()
    with open(outfile) as outf:
        for line in unique_substrings(txt_lst, k):
            outf.write(line + "\n")

然而,从您的导师的评论:

  

应该使用生成器函数的实现生成组合(即使用关键字yield)。

看起来它实际上并没有起作用。

itertools.combinations可以使用近似(from the docs)的内容重新实现:

def combinations(iterable, r):
    # combinations('ABCD', 2) --> AB AC AD BC BD CD
    # combinations(range(4), 3) --> 012 013 023 123
    pool = tuple(iterable)
    n = len(pool)
    if r > n:
        return
    indices = list(range(r))
    yield tuple(pool[i] for i in indices)
    while True:
        for i in reversed(range(r)):
            if indices[i] != i + n - r:
                break
        else:
            return
        indices[i] += 1
        for j in range(i+1, r):
            indices[j] = indices[j-1] + 1
        yield tuple(pool[i] for i in indices)