Question

我有以下示例：

sentences = ['Rashmi likes ice cream', 'Rashmi hates chocolate.']

vectorizer = CountVectorizer(min_df=0, lowercase=False)
vectorizer.fit(sentences)
vectorizer.vocabulary_

随着输出：

{'Rashmi': 0, 'likes': 5, 'ice': 4, 'cream': 2, 'hates': 3, 'chocolate': 1}

那么这些数字代表什么？我不明白。

Answer 1

这是单词到ID的映射

在矢量上调用fit时，每个单词都将映射到字典中的值。

Answer 2

来自docs：

vocabulary_：字典术语到特征索引的映射。

说明：

vocabulary_是一个字典，其中键是项，值是特征矩阵中的索引。

CountVectorizer将文本文档的集合转换为令牌计数矩阵。它会根据词汇表生成每个单词计数的稀疏矩阵。矩阵形状为NxM（N是文档数（行），M是词汇量（列））。该数字只是该矩阵中各列中词汇表中每个单词的索引。

scikit学习CountVectorizer。词汇_

2 个答案: