我想知道为什么功能的数量与唯一令牌的数量相同,而在我的情况下,它们相差一个(1236 v.s.1235)
2018-06-19 04:54:45,158:INFO:将文档#0添加到字典(0个唯一标记:[])
2018-06-19 04:54:45,182:INFO:Built Dictionary(1236个独特的代币:['。',':',.....] ...)来自98个文件(总共10007个语料库位置)
2018-06-19 04:54:45,214:INFO:收集文件频率
2018-06-19 04:54:45,215:INFO:PROGRESS:处理文件#0
2018-06-19 04:54:45,219:INFO:计算98个文档和1235个特征的IDF权重(6993个矩阵非零)