我有100,000个句子,我使用scikit-learn TfidfVectorizer
处理TF-IDF向量,并使用高度自定义的停用词和nlp词干。我的目标是使用dbscan或其他基于密度的集群对句子进行聚类,以发现类似的句子。
在scikit-learn的dbscan实现中,当我聚集超过40,000个句子时,我的内存耗尽。我已经看到了使用ELKI的Java集群GUI的建议。我想在Java中尝试集群,但我找不到将TF-IDF向量从Python移动到ELKI的方法。 ELKI的文档声明它可以处理特定格式的sparse vectors或.arff。