强制或提升carrot2聚类标签中的单词

时间:2015-03-09 22:13:00

标签: solr cluster-analysis carrot2

我正在使用Carrot2来集群Solr的查询结果。是否可以强制(或至少提升)标签中某些单词的出现,无论是Lingo,STC还是k-means?

使用Lingo,已经可以使用“标题词提升”选项,这样可以更加轻松地显示文档标题中出现的单词。这可以扩展到我能提供的其他词吗?

我想至少应该可以将所需的单词追加到“标题词提升”选项所采用的字符串中,以使单词提升工作,但这可能不是正确的方法。

这样做的方法是什么?

1 个答案:

答案 0 :(得分:1)

目前,API中没有公开提升任意单词的可能性,因此只能提升标题中包含的单词。

进行提升的代码在:

https://github.com/carrot2/carrot2/blob/master/core/carrot2-util-text/src/org/carrot2/text/vsm/TermDocumentMatrixBuilder.java#L159

您可以添加另一个属性,例如,可以使用以逗号分隔的单词列表并对其进行提升。