如何从文字袋中返回文件编号

时间:2016-12-25 14:14:22

标签: scikit-learn

我正在使用来自sklearn的CountVectorizer,我想知道如何访问或提取文件编号,这些是我尝试的 喜欢从外面看:(1 ,12 ) 1 我只想要代表文件号的1

from sklearn.feature_extraction.text import CountVectorizer
vectorizer=CountVectorizer()
string1="these is my first statment in vectorizer"
string2="hello every one i like the place here"
string3="i am going to school every day day like the student in my school"
email_list=[string1,string2,string3]
bagofword=vectorizer.fit(email_list)
bagofword=vectorizer.transform(email_list)
print(bagofword)
output:
(0, 3)  1
(0, 7)  1
(0, 8)  1
(0, 10) 1
(0, 14) 1
(1, 12) 1
(1, 16) 1
(2, 0)  1
(2, 1)  2

1 个答案:

答案 0 :(得分:0)

您可以使用

迭代稀疏数组的列
features_map = [col.indices.tolist() for col in bagofword.T]

要获取包含该功能k的所有文档的列表,只需获取此列表的元素k即可。

例如,features_map[2] == [1, 2]表示要素编号2存在于文档1和2中。