Watson Discovery解密段落得分和结果得分

时间:2017-09-07 15:19:00

标签: watson-discovery

我试图破译发现结果中的passage_score和结果[]。得分均值(以百分位数表示)。这样我们就可以过滤出不符合最小置信度阈值的段落和结果。

例如,在此结果集中:

{
...
"passages": [
    {
        "document_id": "AA",
        "passage_score": 14.303232050575723,
        ...
    },
    {
        "document_id": "BB",
        "passage_score": 14.089714658115533,
        ...
    }
],
"results": [
    {
        "id": "AA",
        "score": 1.5188946,
        ...
    },
    {
        "id": "BB",
        "score": 1.5188946,
        ...
    }
]

}

我如何将分数转换为百分比等值进行比较?在RnR中,我曾经使用ranker.confidence字段执行此操作。

2 个答案:

答案 0 :(得分:2)

段落得分和文件得分不是置信度得分,也不是标准化得分。它是基于查询计算的分数,以及文档与用户提交的查询的“好”程度。

比较多个不同查询之间的分数是不正确的,而标准化虽然可以完成,但不适合我们生成的分数。您可以尝试规范化分数,但是如果您在索引中添加或删除文档,则会抛出您提出的任何归一化因子。

分数计算完全取决于文档以及这些文档与特定查询的相关性。换句话说,它是根据文档中的术语频率(单词出现的频率)计算的,以及对分数进行的一些其他复杂的算法调整。它是特定于查询的分数,并且使用试图预测文档与查询最相关的“可能性”的算法来计算。它不是一个标准化的分数。

我建议使用前n个文档作为更合理的阈值,其中n是您返回给用户的最大文档数。段落使用其他算法,这些算法也专注于为特定查询生成最佳段落。再次根据查询计算得分。

有计划在未来重新排名的文件中提高分数。

答案 1 :(得分:0)

根据有关Watson Discovery的官方文档,这些段落由复杂的Watson算法生成,用于确定 文本的最佳段落来自{{>所有文件返回的{{ 1}}。

我想也许您可以使用query参数highlight:一个布尔值,指定返回的输出是否包含突出显示对象,其中键是字段名称,值是包含HTML highlight标记突出显示的查询匹配文本的的数组。

*参数:返回按查询或浓缩分数排名的文档。可以与任何查询参数或聚合一起使用。此示例返回术语聚合的10个热门命中。

  • 检查查询大楼reference内的列表,了解有关使用Discovery的查询。
  • 使用Watson Discovery查看以下内容:article 1article 2以及更多示例。
  • IBM使用Watson Discovery
  • Playlist