我必须处理预先标记化的文档,我可以将其加载到list
个字符串中。我想使用scikit的CountVectorizer为它们计算文档术语矩阵。这可能吗?
或者我应该自己手动构建/计算docterm矩阵?
我想使用scikit的原因是,需要将上述内容集成到使用scikit CountVectorizer和BinomialNB训练的程序中。
答案 0 :(得分:1)
在以下代码中,text_list是"列表列表"换句话说text_list = [[doc1],[doc2],...,[docn]]。您可以获取包含语料库中每个文档的术语及其频率的稀疏矩阵。
cv2.rectangle(frame2, (minc, minr), (minc +maxc - minc , minr + maxr - minr), (0, 255, 0), 2)
cv2.imshow('ObjectTrack', frame2) # this line outside the if loop