用solr中的术语向量分量进行干扰

时间:2015-01-20 09:04:59

标签: solr stemming

我在 solr 中使用术语向量组件来构建标签云。我也使用porter-stem工厂来处理索引和查询时间。

问题是术语向量给出了最终输出中词干词与词频的关系。 示例: - 如果我搜索“通信”这个词。它给出了“公社”的术语频率,但我需要沟通。我只需要查询而不是在术语向量中查询。我怎么能阻止这个?

1 个答案:

答案 0 :(得分:0)

您可以创建一个没有词干的copy field并查询该字段以生成您的代码云。

例如,假设您的当前字段名为my_text,您可能会遇到以下情况:

首先定义一个新字段:

<field name="my_text_2" type="my_text_type_2" indexed="true" stored="false" termVectors="true"/>

然后在写入时将文本复制到它:

<copyField source="my_text" dest="my_text_2"/>

其中my_text_type_2是字段类型,您可以在其中设置所需的分析器。它可能是用于my_text的当前字段类型的副本,但没有词干。