我正在寻找一个Java Matrix库来执行数据分析并实现聚类算法(如K-means或DBSCAN)
我找到了Colt和Parallel Colt(大型和小型数据集表现最佳),但显然他们不支持String Matrices。数据集条目应该只是双矩阵。
有什么建议吗?
提前感谢您的帮助。
答案 0 :(得分:0)
看看ELKI。它支持任意距离函数,并且已经具有余弦距离。所以它显然可以在文本数据上运行这些算法。
请注意,对于大多数应用程序,您需要将字符串数据转换为TF-IDF向量,因为余弦距离也是在数字向量上定义的。但是,这些向量通常是稀疏的,因此对稀疏向量的优化处理会得到回报。