使用稀疏表示的nltk.cluster

时间:2011-02-18 17:15:22

标签: python nltk

我是Python的新手。

我正在尝试使用nltk.cluster包将简单的kMeans应用于word-document矩阵。虽然它在矩阵是类似numpy数组的对象列表时有效,但我无法使其适用于稀疏矩阵表示(例如csc_matrix,csr_matrix或lil_matrix)。

我找到的所有信息都是:

  

请注意,向量必须使用类似numpy数组的对象。 nltk_contrib.unimelb.tacohn.SparseArrays可在需要时用于提高效率

我不明白这意味着什么。在这件事上有人可以帮助我吗?

提前致谢!

1 个答案:

答案 0 :(得分:1)

这意味着当你传入输入向量时,你可以传入一个numpy.array()或一个nltk_contrib.unimelb.tacohn.SparseArrays。

我建议您查看包 nltk_contrib.unimelb.tacohn 以查找SparseArrays类。然后尝试使用此类创建数据,然后将其传递给nltk.cluster