如何为sklearn CountVectorizer设置自定义停用词?

时间:2016-10-19 07:07:31

标签: python machine-learning scikit-learn nlp

我正在尝试在非英语文本数据集上运行LDA(Latent Dirichlet Allocation)。

从sklearn的教程中,您可以在此部分中计算要提供给LDA的单词的术语频率:

tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,
                            max_features=n_features,
                            stop_words='english')

哪个内置停用词功能,我认为只适用于英语。我怎么能用自己的停用词列表?

1 个答案:

答案 0 :(得分:11)

您可以将stop_words = frozenset(["word1", "word2","word3"]) 个自己的单词分配给stop_words argument,例如:

class WallNotification < ActiveRecord::Base
    belongs_to :attachable, polymorphic: true
    belongs_to :user
end