我想知道scipy.sparse.csc_matrix
中mlpy
的格式是否有python
格式。我曾经使用过mlpy,并且一直处理非稀疏矩阵。例如,如果我每行有5个功能和1个标签(0或1),我会有这样的事情:
2,3,4,5,6,0
1,2,3,4,5,1
.....
现在,对于我的下一个项目,我拥有大约20,000个大量的功能,因此在这种情况下创建稀疏矩阵会更容易。
我查看了有关k-means聚类的mlpy文档(因为我现在要做的就是对数据进行聚类)并且它says:
Parameters :
x : 2d array_like object (N, P)
data
k : int (1<k<N)
number of clusters
plus : bool
k-means++ algorithm for initialization
seed : int
random seed for initialization
Returns :
clusters, means, steps: 1d array, 2d array, int
cluster membership in 0,...,K-1, means (K,P), number of steps
我认为这意味着mlpy只接受非稀疏矩阵。如果我读错了,请告诉我。
任何帮助都将受到高度赞赏。谢谢!
答案 0 :(得分:1)
我认为答案很简单,MLPy中的kmeans不适用于稀疏输入。编写算法来处理稀疏输入是非常重要的。
MiniBatchKMeans的scikit-learn适用于稀疏输入(免责声明:我是一名scikit-learn开发人员)。