我在 solr 中使用术语向量组件来构建标签云。我也使用porter-stem工厂来处理索引和查询时间。
问题是术语向量给出了最终输出中词干词与词频的关系。 示例: - 如果我搜索“通信”这个词。它给出了“公社”的术语频率,但我需要沟通。我只需要查询而不是在术语向量中查询。我怎么能阻止这个?
答案 0 :(得分:0)
您可以创建一个没有词干的copy field并查询该字段以生成您的代码云。
例如,假设您的当前字段名为my_text
,您可能会遇到以下情况:
首先定义一个新字段:
<field name="my_text_2" type="my_text_type_2" indexed="true" stored="false" termVectors="true"/>
然后在写入时将文本复制到它:
<copyField source="my_text" dest="my_text_2"/>
其中my_text_type_2
是字段类型,您可以在其中设置所需的分析器。它可能是用于my_text
的当前字段类型的副本,但没有词干。