将数据从Scikit-Learn转移到Elki进行聚类

时间:2016-06-22 00:27:12

标签: cluster-analysis scikit-learn

我有100,000个句子,我使用scikit-learn TfidfVectorizer处理TF-IDF向量,并使用高度自定义的停用词和nlp词干。我的目标是使用dbscan或其他基于密度的集群对句子进行聚类,以发现类似的句子。

在scikit-learn的dbscan实现中,当我聚集超过40,000个句子时,我的内存耗尽。我已经看到了使用ELKI的Java集群GUI的建议。我想在Java中尝试集群,但我找不到将TF-IDF向量从Python移动到ELKI的方法。 ELKI的文档声明它可以处理特定格式的sparse vectors或.arff。

  1. 最具体的问题。任何人都可以建议如何将TFIDF向量从scikit-learn转移到可以加载到ELKI中的格式。
  2. ELKI会比scikit-learn更好地管理记忆吗?或者这是毫无意义的工作?

0 个答案:

没有答案