决定Carrot2中的簇大小设置

时间:2017-10-11 10:15:35

标签: cluster-analysis java-api carrot2

我正在使用carrot2的STC(后缀树聚类)算法来聚类一堆文档。默认情况下,算法形成的最大簇数 16 。有没有办法确定生成的集群数量?。

以下是调用STC群集的代码。

ProcessingResult byDomainClusters = controller.process(documents, null, STCClusteringAlgorithm.class);
List<Cluster> clustersByDomain = byDomainClusters.getClusters();
ConsoleFormatter.displayClusters(clustersByDomain);

1 个答案:

答案 0 :(得分:1)

要获得更多群集,请尝试增加maxClustersmaxBaseClusters参数的值。以下是pass parameter values in Java code的方法。

但是,群集数量较少也可能是由输入数据的特征造成的(文档太少?)。要验证这一点,请尝试使用Lingo算法对数据进行聚类。