我有以下示例:
sentences = ['Rashmi likes ice cream', 'Rashmi hates chocolate.']
vectorizer = CountVectorizer(min_df=0, lowercase=False)
vectorizer.fit(sentences)
vectorizer.vocabulary_
随着输出:
{'Rashmi': 0, 'likes': 5, 'ice': 4, 'cream': 2, 'hates': 3, 'chocolate': 1}
那么这些数字代表什么?我不明白。
答案 0 :(得分:1)
这是单词到ID的映射
在矢量上调用fit时,每个单词都将映射到字典中的值。
答案 1 :(得分:0)
来自docs:
vocabulary_:字典 术语到特征索引的映射。
说明:
vocabulary_是一个字典,其中键是项,值是特征矩阵中的索引。
CountVectorizer将文本文档的集合转换为令牌计数矩阵。它会根据词汇表生成每个单词计数的稀疏矩阵。矩阵形状为NxM(N是文档数(行),M是词汇量(列))。该数字只是该矩阵中各列中词汇表中每个单词的索引。