我是Python的新手。
我正在尝试使用nltk.cluster包将简单的kMeans应用于word-document矩阵。虽然它在矩阵是类似numpy数组的对象列表时有效,但我无法使其适用于稀疏矩阵表示(例如csc_matrix,csr_matrix或lil_matrix)。
我找到的所有信息都是:
请注意,向量必须使用类似numpy数组的对象。 nltk_contrib.unimelb.tacohn.SparseArrays可在需要时用于提高效率
我不明白这意味着什么。在这件事上有人可以帮助我吗?
提前致谢!
答案 0 :(得分:1)
这意味着当你传入输入向量时,你可以传入一个numpy.array()或一个nltk_contrib.unimelb.tacohn.SparseArrays。
我建议您查看包 nltk_contrib.unimelb.tacohn 以查找SparseArrays类。然后尝试使用此类创建数据,然后将其传递给nltk.cluster