?Watson演讲文字限制:评论?

时间:2016-05-04 16:23:08

标签: speech-recognition speech-to-text ibm-watson

  • 不支持AAC格式
  • 会议需要几个小时:无损格式FLAC会生成非常大的文件(API设置为100 MB以上)
  • 一小时测试会议= FLAC为210 MB,OPUS为30 MB。因此需要选择OPUS(有损格式)而不是FLAC(无损)
  • 人类难以阅读的文字(标点符号)
  • 没有迹象表明对单词的置信度低(这可能表示存在潜在错误)
  • 很多"空"矩

PLUS 对于演示来说还不错......我们如何才能实现生产分级系统?

2 个答案:

答案 0 :(得分:1)

感谢您的反馈,以下是一些答案:

  • 你说FLAC的一小时是210 MBS?您使用的采样率是多少?和每个样本的位数?请注意,您可以降低采样到16Khz而不会损失精度,这将导致更小的文件。

  • IBM正致力于美化输出,敬请期待......

  • 每个单词都有信心,你只需要传递" word_confidence = true"使用WebSockets或REST api时的参数

  • "空洞时刻"?你是什​​么意思

我们很乐意帮助您构建生产系统。你的用例是什么?

达尼

答案 1 :(得分:0)

一般的文字转语意思:

  1. 人们经常互相交谈
  2. 对捕获的环境质量敏感(房间声学,录音设备放置,电话呼叫等)
  3. 技术/领域特定词语被错误分类(新兴技术通常太新,不适合在训练集中)
  4. 非母语人士的分类很难