mlpy的scipy.sparse.csc_matrix格式

时间:2012-03-15 07:09:03

标签: python machine-learning scipy

我想知道scipy.sparse.csc_matrixmlpy的格式是否有python格式。我曾经使用过mlpy,并且一直处理非稀疏矩阵。例如,如果我每行有5个功能和1个标签(0或1),我会有这样的事情:

2,3,4,5,6,0

1,2,3,4,5,1
.....

现在,对于我的下一个项目,我拥有大约20,000个大量的功能,因此在这种情况下创建稀疏矩阵会更容易。

我查看了有关k-means聚类的mlpy文档(因为我现在要做的就是对数据进行聚类)并且它says

Parameters :    
x : 2d array_like object (N, P)
data
k : int (1<k<N)
number of clusters
plus : bool
k-means++ algorithm for initialization
seed : int
random seed for initialization
Returns :   
clusters, means, steps: 1d array, 2d array, int
cluster membership in 0,...,K-1, means (K,P), number of steps

我认为这意味着mlpy只接受非稀疏矩阵。如果我读错了,请告诉我。

任何帮助都将受到高度赞赏。谢谢!

1 个答案:

答案 0 :(得分:1)

我认为答案很简单,MLPy中的kmeans不适用于稀疏输入。编写算法来处理稀疏输入是非常重要的。

MiniBatchKMeansscikit-learn适用于稀疏输入(免责声明:我是一名scikit-learn开发人员)。