应用错误收集

随机性对搜索结果的影响

时间：2015-02-19 14:22:27

标签： search elasticsearch machine-learning e-commerce

我目前正致力于搜索排名算法，该算法将应用于弹性搜索查询（域名：电子商务）。它在返回的几个实体上分配分数，最后根据分配的分数对它们进行排序。

我的问题是：有没有人试图为任何搜索算法引入一定程度的随机性并且已经经历了它的积极影响。我认为减少偏见并推广排名较低的项目可能会有所帮助，让他们有机会更容易被看到并且如果他们应得的话就会受到欢迎。我知道一些机器学习算法正在引入一些随机化来减少偏差，所以我认为它也可以应用于搜索。

最近我可以到达这里但不完全是我希望得到的答案： Randomness in Artificial Intelligence & Machine Learning

2 个答案:

答案 0 :(得分：1)

我在你的帖子中没有看到这个... Elasticsearch提供随机评分功能：https://www.elastic.co/guide/en/elasticsearch/guide/master/random-scoring.html

作为网站的所有者，您希望为广告客户提供尽可能多的曝光率。使用当前查询，每次都会以相同的顺序返回具有相同$('[id$=txtbxSSNOrITIN]').attr("maxlength", adjustedInputLengthVal );的结果。在这里引入一些随机性会很好，以确保单个分数级别的所有文档获得相似的曝光量。

我们希望每个用户都能看到不同的随机顺序，但我们希望同一个用户在点击第2,3页等时看到相同的顺序。这就是一贯随机的含义。

_score函数输出0到1之间的数字，当它具有相同的种子值时会产生一致的随机结果，例如用户的会话ID

答案 1 :(得分：0)

你的直觉是正确的 - 随机化可以帮助表面结果，由于估计的不确定性，得分低于应得分。根据经验，Google搜索广告似乎有时会被随机化，例如this paper暗示了它（见第6节）。

此问题描述了一类名为 Explore / Exploit algorithms 或 Multi-Armed Bandit 问题的问题实例;见例如http://en.wikipedia.org/wiki/Multi-armed_bandit。有大量的数学理论和算法方法。一般的想法是不总是按预期的“最佳”效用排序，而是通过考虑不确定度的乐观估计。可以找到一篇易读且具有推动力的博文here。