我是python中的新手,并尝试创建term-document-matrix并从示例数组中识别功能名称。我已经设法提取特征名称,并使用预处理和CountVectorizer创建术语文档矩阵,用于稀疏矩阵表示作为python中的附加代码。
doc=['I like databases', 'I like like databases','I am the not not the chalk']
vectorizer = CountVectorizer(analyzer='word', ngram_range=(1,2),lowercase=True, max_df=20) # utf-8 default
# vectorizer.fit(MSG_train_Series)
document_term_matrix=vectorizer.fit_transform(MSG_train_Series)
feature_names = vectorizer.get_feature_names()
print("get_feature_names():", feature_names)
print(" document_term_matrix:", document_term_matrix)
我得到如下输出:
get_feature_names(): ['chalk', 'database', 'like', 'like database', 'like like']
document_term_matrix: (0, 2) 1
(0, 1) 1
(0, 3) 1
(1, 2) 2
(1, 1) 1
(1, 3) 1
(1, 4) 1
(2, 0) 1
现在我想要消除少于给定数量的文档中发生的功能(例如,粉笔少于2个文档)
有人可以建议我吗