我正在使用来自sklearn的CountVectorizer
,我想知道如何访问或提取文件编号,这些是我尝试的
喜欢从外面看:(1 ,12 ) 1
我只想要代表文件号的1
from sklearn.feature_extraction.text import CountVectorizer
vectorizer=CountVectorizer()
string1="these is my first statment in vectorizer"
string2="hello every one i like the place here"
string3="i am going to school every day day like the student in my school"
email_list=[string1,string2,string3]
bagofword=vectorizer.fit(email_list)
bagofword=vectorizer.transform(email_list)
print(bagofword)
output:
(0, 3) 1
(0, 7) 1
(0, 8) 1
(0, 10) 1
(0, 14) 1
(1, 12) 1
(1, 16) 1
(2, 0) 1
(2, 1) 2
答案 0 :(得分:0)
您可以使用
迭代稀疏数组的列features_map = [col.indices.tolist() for col in bagofword.T]
要获取包含该功能k
的所有文档的列表,只需获取此列表的元素k
即可。
例如,features_map[2] == [1, 2]
表示要素编号2存在于文档1和2中。