如何使用C ++更有效地摆脱停用词

时间:2013-12-10 03:55:10

标签: c++

现在我有一个停用词dict,并且需要处理wordlist。我如何编码以提高效率?

我的代码是:使用vectorstopword将dict加载到内存中,然后迭代wordlist,找到禁止词中的wordlist,如果没有,则strcpy到newwordlist。

for(i=0;i<len;i++)
{  
   stopword.find(a[i])=stopword.end());
   strcpy(new_word,a[i]);
}  

但是这段代码需要2个循环吗?还有其他方法可以改变它吗?使用hash而不是vertor?

1 个答案:

答案 0 :(得分:0)

您可以将停用词存储在名为Trie的结构中。它是一个基于前缀的树,使您能够一次,逐个字符地搜索所有停用词。

参见维基百科:http://en.wikipedia.org/wiki/Trie