用于混合数据类型的Java Matrix库(包括字符串)

时间:2012-02-25 22:14:01

标签: java dataset cluster-analysis k-means dbscan

我正在寻找一个Java Matrix库来执行数据分析并实现聚类算法(如K-means或DBSCAN)

我找到了Colt和Parallel Colt(大型和小型数据集表现最佳),但显然他们不支持String Matrices。数据集条目应该只是双矩阵。

有什么建议吗?

提前感谢您的帮助。

1 个答案:

答案 0 :(得分:0)

看看ELKI。它支持任意距离函数,并且已经具有余弦距离。所以它显然可以在文本数据上运行这些算法。

请注意,对于大多数应用程序,您需要将字符串数据转换为TF-IDF向量,因为余弦距离也是在数字向量上定义的。但是,这些向量通常是稀疏的,因此对稀疏向量的优化处理会得到回报。