功能从术语文档matix中消除

时间:2016-05-30 15:33:24

标签: python

我是python中的新手,并尝试创建term-document-matrix并从示例数组中识别功能名称。我已经设法提取特征名称,并使用预处理和CountVectorizer创建术语文档矩阵,用于稀疏矩阵表示作为python中的附加代码。

样本数组

doc=['I like databases', 'I like like databases','I am the not not the chalk']

在传递给稀疏矢量表示

之前,在此处完成预处理
vectorizer = CountVectorizer(analyzer='word', ngram_range=(1,2),lowercase=True, max_df=20)  # utf-8 default
# vectorizer.fit(MSG_train_Series)
document_term_matrix=vectorizer.fit_transform(MSG_train_Series)
feature_names = vectorizer.get_feature_names()
print("get_feature_names():", feature_names)
print(" document_term_matrix:", document_term_matrix)

我得到如下输出:

get_feature_names(): ['chalk', 'database', 'like', 'like database', 'like like']

document_term_matrix:   (0, 2)  1
  (0, 1)    1
  (0, 3)    1
  (1, 2)    2
  (1, 1)    1
  (1, 3)    1
  (1, 4)    1
  (2, 0)    1

现在我想要消除少于给定数量的文档中发生的功能(例如,粉笔少于2个文档)

有人可以建议我吗

0 个答案:

没有答案