Question

我必须处理预先标记化的文档，我可以将其加载到list个字符串中。我想使用scikit的CountVectorizer为它们计算文档术语矩阵。这可能吗？

或者我应该自己手动构建/计算docterm矩阵？

我想使用scikit的原因是，需要将上述内容集成到使用scikit CountVectorizer和BinomialNB训练的程序中。

Answer 1

在以下代码中，text_list是＆＃34;列表列表＆＃34;换句话说text_list = [[doc1]，[doc2]，...，[docn]]。您可以获取包含语料库中每个文档的术语及其频率的稀疏矩阵。

   cv2.rectangle(frame2, (minc, minr), (minc +maxc - minc , minr + maxr - minr), (0, 255, 0), 2)
cv2.imshow('ObjectTrack', frame2) # this line outside the if loop

如何让scikit从预先标记化的文档计算文档 - 术语矩阵？

1 个答案: