应用错误收集

我有100,000个句子，我使用scikit-learn TfidfVectorizer处理TF-IDF向量，并使用高度自定义的停用词和nlp词干。我的目标是使用dbscan或其他基于密度的集群对句子进行聚类，以发现类似的句子。

在scikit-learn的dbscan实现中，当我聚集超过40,000个句子时，我的内存耗尽。我已经看到了使用ELKI的Java集群GUI的建议。我想在Java中尝试集群，但我找不到将TF-IDF向量从Python移动到ELKI的方法。 ELKI的文档声明它可以处理特定格式的sparse vectors或.arff。

最具体的问题。任何人都可以建议如何将TFIDF向量从scikit-learn转移到可以加载到ELKI中的格式。
ELKI会比scikit-learn更好地管理记忆吗？或者这是毫无意义的工作？

将数据从Scikit-Learn转移到Elki进行聚类

0 个答案: