Python:如何优化两个大集之间的比较?

时间:2015-05-15 00:49:23

标签: python list optimization comparison nlp

我向你致敬!我是新手,我在尝试优化这部分代码时遇到了一些问题。

我正在阅读两个文件:

Corpus.txt ----->包含我的文字(1.000.000字)

Stop_words.txt ----->包含我的stop_list(4000字)

我必须将我的语料库中的每个单词与stop_list中的每个单词进行比较,因为我想要一个没有停用词的文本,所以我: 1.000.000 * 4000与以下代码的比较:

fich= open("Corpus.txt", "r")
text = fich.readlines()

fich1= open("stop_words.txt", "r")
stop = fich1.read()

tokens_stop = nltk.wordpunct_tokenize(stop)
tokens_stop=sorted(set(tokens_stop))

for line in text :
    tokens_rm = nltk.wordpunct_tokenize(line)
    z = [val for val in tokens_rm if val not in tokens_stop]
    for i in z:
        print i

我的问题是:有什么不同的做法吗?任何优化它的结构?

1 个答案:

答案 0 :(得分:1)

您可以创建一组stop_words,然后为文本中的每个单词查看它是否在集合中。

实际上看起来你已经在使用一套了。虽然我不知道你为什么要整理它。