Python 3:自动完成算法

时间:2017-09-28 14:48:28

标签: python performance list autocomplete match

我在Python 3.6中编写了一些代码来自动完成用户输入的(部分)单词。我的目标是尽可能快速/高效地运行自动完成部分,作为一种开发我的编程技巧和更好地理解Python的方法。我仅限于使用标准库,因为我想探索使用这样的constaint可以实现的目标。

代码的第一部分是一个函数def load_wordfile,它加载一个.txt并创建一个单词列表,在整个过程中小写和清理单词。我试图通过列表理解和string.punctuation加快速度,尽管这不是我的主要关注点。

import string
from collections import Counter

def load_wordfile(filename):

    with open(filename, encoding='utf8') as f:

        # List comprehension and string.punctuation for efficiency and speed improvements
        return [word.strip(string.punctuation) for line in f for word in line.lower().split()]


class AutoCompleter:

    def __init__(self, word_list):

        # Counter takes care of word counts and descending order
        self.counts = Counter(word_list)

        # Total word count for relative frequency calculation
        total = float(len(word_list))

        # Change the counts to frequencies
        for k, v in self.counts.items():
            self.counts[k] = v/total

        # Turn Counter dict into a list in descending order
        self.counts = self.counts.most_common()

    def complete(self, pattern):

        # Clean user entered word
        pattern = pattern.lower().strip(string.punctuation)

        # This is the potential bottleneck
        completions = [pair for pair in self.counts if pair[0].startswith(pattern)]

        return completions



from nltk.corpus import words

# words.words() is a list of over 250,000 unique English words
cmp = AutoCompleter(words.words())
pattern = 'do'

%timeit -n 100 cmp.complete(pattern)


41.6 ms ± 898 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


我也有一个想法,那就是用户键入“a”然后我应该只搜索以“a”开头的单词而不是传递列表中的每个单词。但是现在我对如何最好地实现这一点感到困惑。我也看过Stack Overflow,这有助于其他方面,但我还没有完全把所有的部分组合在一起,以便最终提升性能。


0 个答案:
