Question

我正在使用节点sdk来使用IBM watson语音到文本模块。发送音频样本并收到响应后，置信因子看起来很奇怪。

{
  "results": [
    {
       "word_alternatives": [
      {
      "start_time": 3.31,
      "alternatives": [
        {
          "confidence": 0.7563,
          "word": "you"
        },
        {
          "confidence": 0.0254,
          "word": "look"
        },
        {
          "confidence": 0.0142,
          "word": "Lou"
        },
        {
          "confidence": 0.0118,
          "word": "we"
        }
      ],
      "end_time": 3.43
    },
...

和

...
],
"alternatives": [
    {
      "word_confidence": [
        [
          "you",
          0.36485132893469713
        ],
...

我要求使用此配置进行识别：

 var params = {
    audio: fs.createReadStream(req.file.path),
    content_type: 'audio/wav',
    'interim_results': false,
    'word_confidence': true,
    'timestamps': true,
    'max_alternatives': 3,
    'continuous': true,
    'word_alternatives_threshold': 0.01,
    'smart_formatting': true
  };

注意两个地方“你”这个词的置信度因子是如何不同的。这些数字中的一个是不同的吗？这是怎么回事？

Answer 1

约翰，信心价值来自＆＃34; word_alternatives＆＃34;来自混淆网络，并且在单词级别，而置信度值出现在＆＃34;替代品＆＃34;在句子级别上对格子进行计算。

混淆网络源自格子，但包含假设空间的不同表示，这解释了为什么来自一个或另一个的置信度值可能不同。

在这种情况下，句子只包含一个单词，这就是差异非常明显的原因。

IBM Watson Speech对文本的信心差异

1 个答案: