scikit学习CountVectorizer。词汇_

时间:2019-09-13 19:22:14

标签: python scikit-learn countvectorizer

我有以下示例:

sentences = ['Rashmi likes ice cream', 'Rashmi hates chocolate.']

vectorizer = CountVectorizer(min_df=0, lowercase=False)
vectorizer.fit(sentences)
vectorizer.vocabulary_

随着输出:

{'Rashmi': 0, 'likes': 5, 'ice': 4, 'cream': 2, 'hates': 3, 'chocolate': 1}

那么这些数字代表什么?我不明白。

2 个答案:

答案 0 :(得分:1)

这是单词到ID的映射

在矢量上调用fit时,每个单词都将映射到字典中的值。

答案 1 :(得分:0)

来自docs

  

vocabulary_:字典   术语到特征索引的映射。

说明

vocabulary_是一个字典,其中键是项,值是特征矩阵中的索引。

CountVectorizer将文本文档的集合转换为令牌计数矩阵。它会根据词汇表生成每个单词计数的稀疏矩阵。矩阵形状为NxM(N是文档数(行),M是词汇量(列))。该数字只是该矩阵中各列中词汇表中每个单词的索引。