IBM Watson Speech对文本的信心差异

时间:2016-12-09 21:47:40

标签: ibm-cloud speech-recognition speech-to-text

我正在使用节点sdk来使用IBM watson语音到文本模块。发送音频样本并收到响应后,置信因子看起来很奇怪。

{
  "results": [
    {
       "word_alternatives": [
      {
      "start_time": 3.31,
      "alternatives": [
        {
          "confidence": 0.7563,
          "word": "you"
        },
        {
          "confidence": 0.0254,
          "word": "look"
        },
        {
          "confidence": 0.0142,
          "word": "Lou"
        },
        {
          "confidence": 0.0118,
          "word": "we"
        }
      ],
      "end_time": 3.43
    },
...

...
],
"alternatives": [
    {
      "word_confidence": [
        [
          "you",
          0.36485132893469713
        ],
...

我要求使用此配置进行识别:

 var params = {
    audio: fs.createReadStream(req.file.path),
    content_type: 'audio/wav',
    'interim_results': false,
    'word_confidence': true,
    'timestamps': true,
    'max_alternatives': 3,
    'continuous': true,
    'word_alternatives_threshold': 0.01,
    'smart_formatting': true
  };

注意两个地方“你”这个词的置信度因子是如何不同的。这些数字中的一个是不同的吗?这是怎么回事?

1 个答案:

答案 0 :(得分:1)

约翰,信心价值来自" word_alternatives"来自混淆网络,并且在单词级别,而置信度值出现在"替代品"在句子级别上对格子进行计算。

混淆网络源自格子,但包含假设空间的不同表示,这解释了为什么来自一个或另一个的置信度值可能不同。

在这种情况下,句子只包含一个单词,这就是差异非常明显的原因。