我正在使用carrot2的STC(后缀树聚类)算法来聚类一堆文档。默认情况下,算法形成的最大簇数 16 。有没有办法确定生成的集群数量?。
以下是调用STC群集的代码。
ProcessingResult byDomainClusters = controller.process(documents, null, STCClusteringAlgorithm.class);
List<Cluster> clustersByDomain = byDomainClusters.getClusters();
ConsoleFormatter.displayClusters(clustersByDomain);
答案 0 :(得分:1)
要获得更多群集,请尝试增加maxClusters和maxBaseClusters参数的值。以下是pass parameter values in Java code的方法。
但是,群集数量较少也可能是由输入数据的特征造成的(文档太少?)。要验证这一点,请尝试使用Lingo算法对数据进行聚类。