应用错误收集

使用稀疏表示的nltk.cluster

时间：2011-02-18 17:15:22

标签： python nltk

我是Python的新手。

我正在尝试使用nltk.cluster包将简单的kMeans应用于word-document矩阵。虽然它在矩阵是类似numpy数组的对象列表时有效，但我无法使其适用于稀疏矩阵表示（例如csc_matrix，csr_matrix或lil_matrix）。

我找到的所有信息都是：

请注意，向量必须使用类似numpy数组的对象。 nltk_contrib.unimelb.tacohn.SparseArrays可在需要时用于提高效率

我不明白这意味着什么。在这件事上有人可以帮助我吗？

提前致谢！

1 个答案:

答案 0 :(得分：1)

这意味着当你传入输入向量时，你可以传入一个numpy.array（）或一个nltk_contrib.unimelb.tacohn.SparseArrays。

我建议您查看包 nltk_contrib.unimelb.tacohn 以查找SparseArrays类。然后尝试使用此类创建数据，然后将其传递给nltk.cluster