Solr Relevancy - 如何对搜索质量进行A / B测试?

时间:2011-08-22 01:07:44

标签: testing solr

我希望执行实时A / B和受控的并排实验,以帮助了解更改如何影响搜索质量。我将测试变量值和模糊查询等变量。

还有哪些指标用于确定用户是否更喜欢A对B?以下是我在网上找到的2个指标......

  • 在Google Analytics中,“%Search Exits”是您可以使用的指标 衡量网站搜索结果的质量

  • 衡量搜索质量的另一种方法是衡量搜索质量 搜索结果页面访问者视图。

1 个答案:

答案 0 :(得分:8)

搜索质量是不容易衡量的。要衡量相关性,您需要做几件事:

  1. 衡量相关性的竞争对手。对于您的情况,您的搜索引擎的不同实例将成为彼此的竞争对手。我的意思是一个搜索引擎实例将运行基本算法,另一个启用模糊,另一个同时具有模糊和增强等等。

  2. 您需要手动为结果评分。您可以要求您的同事对热门查询的查询/网址对进行评分,然后对于漏洞(即查询/网址对未评级,您可以通过使用“学习排名”算法http://en.wikipedia.org/wiki/Learning_to_rank来获得一些动态排名功能。不要对此感到惊讶,但那是真的(请阅读下面的Google / Bing示例)。

  3. Google和Bing是横向搜索市场的竞争对手。这些搜索引擎在世界各地使用手工评委,并在其上投入数百万美元,对查询结果进行评级。因此,对于每个查询/网址对,通常对前3个或前5个结果进行评级。根据这些评级,他们可能会使用像NDCG(标准化折扣累积增益)这样的指标,这是最好的指标之一,也是最受欢迎的指标之一。

    According to wikipedia

      

    折扣累积增益(DCG)是Web搜索引擎>算法或相关应用程序的有效性的度量,通常用于信息检索。使用搜索引擎结果集中的分级的>相关的文档规模,DCG基于其在结果列表中的位置来测量文档的有用性,或>获得。增益从结果列表的顶部到底部累积,每个结果的增益在>较低等级处打折。

    维基百科以极好的方式解释NDCG。这是一篇简短的文章,请仔细阅读。

    正如你所提到的,你也可以点击率/数据在哪里有你的智慧算法算法,你基于此调整相关性。这是一个非常好的出路,但它吸引了垃圾邮件。因此,它必须与NDCG / MAP等一些指标相结合,以解决您的相关问题。

    如果您仍需要了解更多有关整体内容如何在您的案例研究中发挥作用的话,我可以提供更多详细信息。