字段偏差说明以及如何改进搜索结果

时间:2016-10-26 20:43:22

标签: apache search solr

我觉得我们可以从我们的帮助网站改进搜索结果(测试了几个术语,但没有在第一页看到相关结果),我正在探索我们的选择。

我们使用Apache Solr Search,在阅读之后,似乎我们可以通过调整Field Bias来改善结果。以下是可用字段的列表。有些领域不言自明,但我不知道别人的意思。例如。路径别名,tm_vid_2_names等。

  • 完整的呈现内容(例如呈现的节点主体)
  • 标题或标签
  • 路径别名
  • 链接中的正文(A标签)
  • H1标签内的正文
  • H2或H3标签内的正文
  • H4,H5或H6标签内的正文
  • 内嵌标签中的正文文字,例如EM或STRONG
  • 所有分类术语名称
  • tm_ds_search_result
  • tm_vid_11_names
  • tm_vid_12_names
  • tm_vid_16_names
  • 分类词术语名称仅来自Tags词汇表
  • tm_vid_21_names
  • tm_vid_26_names
  • tm_vid_2_names
  • tm_vid_3_names
  • tm_vid_4_names
  • tm_vid_5_names
  • tm_vid_6_names
  • tm_vid_9_names
  • 额外呈现的内容或关键字
  • 作者姓名
  • 作者姓名(格式化)
  • 与节点相关联的已呈现评论

非常感谢你的帮助。

1 个答案:

答案 0 :(得分:0)

在不了解您的域名以及实际相关信息的情况下,无法说出所有这些字段背后的含义。我首先要看看人们如何使用你的搜索,以及他们正在寻找什么 - 然后开始调整每个字段的数量,以获得比你现在看到的更多相关结果。

如果您正在使用dismax或edismax查询处理程序(您可能正在使用),则可以通过在字段列表中应用权重来调整每个字段的权重和提升:qf=field^10 field_2^5 field_3。这将搜索所有三个字段,但是第一个字段中的匹配比第二个和第三个字段更重要。

在你的情况下,你可能想要更多地提升标题中的任何内容,h1,h2,h3等字段,因为它们可能是内容的更好的描述符,以及分类法字段。身体区域不应该被认为是非常重要的(所以没有提升可能是一个好的开始),除了确保你找到文件,如果它是一个很少使用的术语。

您可以在查询中附加debugQuery=true,以确切了解结果的得分方式以及搜索结果中某个文档排在另一个文档之上的原因。

对于没有具体数据和搜索模式知识的人来说,不可能准确地说出要包含哪些字段及其权重。