从列表中消除半重复项的高性能方法

时间:2012-10-14 21:16:41

标签: python performance data-structures loops

我有一系列谜题:莫尔斯电码字符串,字母或单词之间没有空格。我的计划是进行字典攻击以找到最佳候选解决方案。我的武器是Python。

我有17000个英文单词列表。我还有一个与拼图主题相关的小得多的单词列表,如果这些单词显示出来,它们应该得分更高。

因此,在生成单词列表时,在脚本的最开始,我使用了表单元组列表(word,scoremultiplier)。这是一小部分:

[('zoned', 1.0), 
 ('zonely', 1.0), 
 ('zoner', 1.0), 
 ('zones', 1.0), 
 ('zoning', 1.0), 
 ('zoo', 1.0), 
 ('zoom', 1.0), 
 ('zoomed', 1.0), 
 ('zooming', 1.0), 
 ('zooms', 1.0), 
 ('zoos', 1.0), 
 ('ten', 1.0), 
 ('tens', 1.0), 
 ('gnash', 1.0), 
 ('shag', 1.0), 
 ('75th', 2.0), 
 ('seventy', 2.0), 
 ('fifth', 2.0)]

在我解析所有内容的文件中,我想在最后粘贴高价值的单词,而不是手动删除文件主要部分中的任何重复项。所以我需要写一些东西来摆脱早期的元组,它的第一个值等于后来的元组。

我可以用暴力来做到这一点:

for firstkey, (firstword, firstfactor) in enumerate(wordlist):
    for laterkey, (laterword, laterfactor) in enumerate(wordlist[firstkey+1:]):
        if firstword == laterword:
            del wordlist[firstkey]
            break

但是这部分剧本只需要45秒,而我的17000字甚至不是一本完整的字典。 (除了完成所需的时间之外,该代码也未经过测试,因此它甚至可能无法正常工作。)它似乎也非常非Pythony,尽管我现在正在学习Python(并且完成了我的第一次编程)有了这个项目。

有更好的方法吗?我不能使用set(),因为重复的单词是不等元组的一部分。我需要以某种方式重构我的数据吗?或者我应该准备好每次运行时都等一整分钟?

1 个答案:

答案 0 :(得分:3)

我可能会误解这个问题,但看起来您可以从元组列表中生成dict。以后的值将自动覆盖之前的值:

lst = [
    ('foo', 1),
    ('bar', 2),
    ('foo', 10)
]

print dict(lst) # {'foo': 10, 'bar': 2}