如何让scikit从预先标记化的文档计算文档 - 术语矩阵?

时间:2018-03-07 13:00:19

标签: python machine-learning scikit-learn countvectorizer

我必须处理预先标记化的文档,我可以将其加载到list个字符串中。我想使用scikit的CountVectorizer为它们计算文档术语矩阵。这可能吗?

或者我应该自己手动构建/计算docterm矩阵?

我想使用scikit的原因是,需要将上述内容集成到使用scikit CountVectorizer和BinomialNB训练的程序中。

1 个答案:

答案 0 :(得分:1)

在以下代码中,text_list是"列表列表"换句话说text_list = [[doc1],[doc2],...,[docn]]。您可以获取包含语料库中每个文档的术语及其频率的稀疏矩阵。

   cv2.rectangle(frame2, (minc, minr), (minc +maxc - minc , minr + maxr - minr), (0, 255, 0), 2)
cv2.imshow('ObjectTrack', frame2) # this line outside the if loop