我在一堆消息上使用了Bag-of-words模型如下:
bow_transformer = CountVectorizer(analyzer=split_into_lemmas).fit(messages['message'])
B4 = bow_transformer.transform([msg4])
print B4
print bow_transformer.get_feature_names()[6736]
print bow_transformer.get_feature_names()[8013]
(0,1158)1
(0,1899)1
(0,2897)1
(0,2927)1
(0, 4021)1
(0,6736)2
(0,7111)1
(0,7698)1
(0,8013)2说
û
我需要的是给出像“说”这样的词提取其ID “6736”(与bow_transformer.get_feature_names()[6736]
正在捐赠的东西相反)?
答案 0 :(得分:3)
您应该使用词汇_ << />属性:
>>> bow_transformer.vocabulary_.get('say')
6736