我正在使用Solr的facet特征来检索我文档中最常见的索引,我想知道是否可以将类似术语的频率“合并”在一起(例如借助levenshtein距离)。
考虑例如: “沟通技巧”出现200次,“沟通技巧”出现100次,是否有可能让索尔回归“沟通技巧:300次”?
感谢您的帮助!
答案 0 :(得分:0)
Solr为您插入的内容创建方面。因此,如果您插入Communication skills
和Communicating skills
,则无法理解是否将其合并。
但是,您可以使用SynonymFilterFactory
来定义Communication skills
是文件中Communicating skills
的同义词,而Solr将替换Communicating skills
与Communication skills
。
修改强>
你也可以使用PorterStemFilterFactory
来阻止单词,但是,这适用于单个标记,这意味着分解标记然后阻止,然后一些如何加入它们。由于干扰,这也会产生不利影响。