Question

我正在使用来自sklearn的CountVectorizer，我想知道如何访问或提取文件编号，这些是我尝试的喜欢从外面看：(1 ,12 ) 1 我只想要代表文件号的1

from sklearn.feature_extraction.text import CountVectorizer
vectorizer=CountVectorizer()
string1="these is my first statment in vectorizer"
string2="hello every one i like the place here"
string3="i am going to school every day day like the student in my school"
email_list=[string1,string2,string3]
bagofword=vectorizer.fit(email_list)
bagofword=vectorizer.transform(email_list)
print(bagofword)
output:
(0, 3)  1
(0, 7)  1
(0, 8)  1
(0, 10) 1
(0, 14) 1
(1, 12) 1
(1, 16) 1
(2, 0)  1
(2, 1)  2

Answer 1

您可以使用

迭代稀疏数组的列

features_map = [col.indices.tolist() for col in bagofword.T]

要获取包含该功能k的所有文档的列表，只需获取此列表的元素k即可。

例如，features_map[2] == [1, 2]表示要素编号2存在于文档1和2中。

如何从文字袋中返回文件编号

1 个答案: