Solr混合了“电视”和“电视”

时间:2018-10-04 18:14:36

标签: solr stemming

我有一堆文件,每堆文件中都有一堆随机单词。 Solr的输出被单词 television televisions Results for televisions)弄乱了。当我搜索电视时,它会为我同时提供电视电视的搜索结果。它仅与电视及其复数形式有关; Solr可以很好地处理其他单词及其复数形式。例如,它对于 car cars Results for car)正常工作。可能是什么问题?

1 个答案:

答案 0 :(得分:1)

Solr附带了对同义词的支持,在99.99%的情况下,您必须定义什么单词是同义词。这两个例外是单词“电视”和“千兆字节”,因为它们已经在Solr使用的默认synonyms.txt文件中定义。

您可以在核心的conf文件夹中看到此内容:

$ cat /path/to/solr/server/solr/your-core/conf/synonyms.txt

# Some synonym groups specific to this example
GB,gib,gigabyte,gigabytes
MB,mib,megabyte,megabytes
Television, Televisions, TV, TVs

请注意如何定义电视,电视,电视和电视为同义词。

您也可以在这里阅读更多有关此的内容: https://github.com/hectorcorrea/solr-for-newbies/blob/master/tutorial.md#synonyms