修改停用词列表

时间:2018-10-15 19:29:59

标签: solr carrot2

我想对胡萝卜2簇进行调整,以避开不是以介词开头的标签-对于俄语,在语法情况下(非主格)看到一个单词并且没有介词,这很奇怪。 >

使用Apache Solr完成集群。

示例:

Минске ([in] Minsk, missing preposition В in the beginning).
Самом Деле ([in] fact, missing preposition На in the beginning).

我尝试了两种独立的方法:

  1. 配置core / clustering / carrot2 / stopwords.ru-并从那里删除问题中的介词
  2. 解压缩胡萝卜2-mini-3.9.0.jar,从stopwords.ru中删除条目,然后重新装回罐中。

以上所有内容均不影响群集标签。还有其他明显的尝试吗?还是完全改变了调整的方式?

谢谢!

1 个答案:

答案 0 :(得分:1)

从停用词文件中删除介词应该可以解决问题。使用经过修改的停用词文件,由于数据的统计信息,介词仍然可能会丢失-如果某些Минске出现时带有“ in”前缀,而其他词没有前缀,则算法可能会选择较短的版本(没有介词),因为更具代表性。

core/clustering/carrot2/stopwords.ru中的标签应优先于胡萝卜2-mini-3.9.0.jar中包含的标签。

对于Lingo聚类算法,没有直接方法可以直接影响每个标签的单词数,但是您可以尝试增加phrase label boost并降低truncated label threshold

Carrot2 documentation中包含聚类算法参数的完整列表。您可以将参数替代作为Solr results clustering requests的一部分进行传递。