我目前正在开发一个小型网络搜索引擎,但不确定如何评估它。我了解可以通过其准确性和召回率来评估搜索引擎。在更“本地化”的信息检索系统(例如电子图书馆)中,我可以对它们进行计算,因为我可以知道哪些内容与我的查询相关。但是在基于网络的信息检索系统中,例如谷歌,由于我不知道有多少网页是相关的,因此不可能计算召回率。这应该意味着无法完成F-measure和其他需要相关页面数的测量。
我写的所有内容正确吗?网络搜索引擎评估仅限于精度吗?除了P @ k之外,我还可以使用其他任何方法来评估网络搜索引擎吗?
答案 0 :(得分:0)
您正确的认为,准确性和召回率以及F分数/ F度量是用于评估搜索引擎性能中(未排名)检索集的常用指标。
而且,对于为庞大数据集(例如整个Internet上的所有网页)确定召回率和精确度分数的困难或不可能性质,您也是正确的。对于所有搜索引擎,无论大小,我都认为考虑人机交互在信息检索中的作用很重要:使用搜索引擎的用户是否对有一个(排名)相关结果列表(满足他们的信息需求)更感兴趣?还是一个“最高”的相关结果足以满足用户的信息需求?请查看"satisficing" as it pertains to information seeking的概念,以获取有关用户如何评估何时满足其信息需求的更多信息。
无论您使用精度,查全率,平均精度,平均倒数排名还是其他众多相关性和检索指标中的任何其他指标,实际上都取决于您要评估的搜索引擎结果质量。首先,我会尝试找出小型搜索引擎用户可能会遇到的“信息需求”:他们会在寻找相关文档的选择,还是如果他们有一个,则对他们的查询需求会更有帮助?最好的文档来满足他们的信息需求?如果您可以更好地了解您的用户将如何使用小型搜索引擎,则可以使用该信息来帮助告知哪些相关性模型将为您的用户提供他们认为最适合其信息搜索需求的结果。< / p>