如何将波斯停用词作为参数提供给CountVectorizer?

时间:2019-04-27 01:11:54

标签: stop-words countvectorizer farsi

我正在尝试在python(google-colaboratory)中为CountVectorizer()使用波斯停用词。 我不知道该如何将波斯停用词作为参数赋予函数

例如,here是波斯语停用词列表,但我不知道该如何将该列表提供给我的代码

vect = CountVectorizer(stop_words='persian', tokenizer = hazm.word_tokenize).fit(txt)

2 个答案:

答案 0 :(得分:1)

您只需将您要引用的所有停用词放在python list中,然后将列表传递到CountVectorizer。例如:

persian_stop_words = ["در", "این"]
vect = CountVectorizer(stop_words=persian_stop_words)

答案 1 :(得分:0)

您可以使用这个开源存储库来查找波斯语停用词的集合:
https://github.com/kharazi/persian-stopwords

要加载它们,只需将行复制并粘贴到单个文件中(以新行分隔),并将其命名为例如“stopwords.data”。然后你可以在你的项目中加载文件并将加载的文件作为你的 CountVectorizer "stop_words" 参数:

persian_stop_words = loadtxt('stopwords.dat', dtype=str, delimiter='\n')
vect = CountVectorizer(stop_words=persian_stop_words)