如何在单词的词汇词汇中获得单词的id?

时间:2016-06-07 09:18:47

标签: python-2.7 machine-learning scikit-learn

我在一堆消息上使用了Bag-of-words模型如下:

    bow_transformer = CountVectorizer(analyzer=split_into_lemmas).fit(messages['message'])
    B4 = bow_transformer.transform([msg4])
    print B4
    print bow_transformer.get_feature_names()[6736]
    print bow_transformer.get_feature_names()[8013]
  

(0,1158)1
  (0,1899)1
  (0,2897)1
  (0,2927)1
  (0,   4021)1
  (0,6736)2
  (0,7111)1
  (0,7698)1
  (0,8013)2

     

     

û

我需要的是给出像“说”这样的词提取其ID “6736”(与bow_transformer.get_feature_names()[6736]正在捐赠的东西相反)?

1 个答案:

答案 0 :(得分:3)

您应该使用词汇_ << />属性:

>>> bow_transformer.vocabulary_.get('say')
6736