语音到文本音频格式

时间:2017-04-13 07:12:22

标签: mp3 ibm-watson watson formats

我们可以在语音中使用MP3音频文件来编写Watson API吗?

语音到文本Watson API有哪些流行的不受支持的格式?

3 个答案:

答案 0 :(得分:0)

答案 1 :(得分:0)

我建议你使用WAV格式,在这种情况下:流行的格式。取决于案件使用。

如果您确实需要使用MP3,则可以简单地将convert MP3转换为WAV。

但是,Speech to Text支持的格式是:

  • audio / flac:免费无损音频编解码器( FLAC ),一种无损压缩音频编码格式。有关更多信息,请参阅en.wikipedia.org/wiki/FLAC。

  • audio / l16:线性16位脉冲编码调制( PCM ),一种未压缩的音频数据格式。使用此媒体类型传递原始PCM文件。请注意,线性PCM音频也可以驻留在容器波形音频文件格式(WAV)文件中。有关详细信息,请参阅Internet工程任务组(IETF)的注释请求(RFC)2586和en.wikipedia.org/wiki/Pulse-code_modulation。

  • audio / wav:波形音频文件格式( WAV ),由Microsoft®和IBM创建的标准。 WAV文件是一个容器,通常用于未压缩的音频比特流,但也可以包含压缩音频。有关更多信息,请参阅en.wikipedia.org/wiki/WAV。 该服务支持使用任何编码的WAV文件。它接受最多9个通道的音频(由于FFmpeg限制)。

  • audio / ogg / audio / ogg; codecs = opus / audio / ogg; codecs = vorbis:Ogg是由Xiph.org基金会维护的免费开放容器格式;有关更多信息,请访问www.xiph.org/ogg/。 两种编解码器都是免费,开放,有损的音频压缩格式。 Opus是首选的编解码器。如果省略编解码器,服务会自动从输入音频中检测到它。

  • audio / webm / audio / webm; codecs = opus / audio / webm; codecs = vorbis:网络媒体( WebM )是一种开放媒体 - 文件格式;有关更多信息,请参阅webmproject.org。 WebM支持使用Opus和Vorbis音频编解码器压缩的音频流; Opus是首选的编解码器。如果省略编解码器,服务会自动从输入音频中检测到它。对于JavaScript代码,该代码显示如何从Chrome浏览器中的麦克风捕获音频并将其编码为WebM数据流。

但是,您可以在语音到文字 Official Documentation中看到包含更多详细信息的所有格式。 我建议您编辑更多详细信息并阅读文档,通常,IBM的文档非常客观和完整。

答案 2 :(得分:0)

不要为选择特定的音频格式进行语音到文本转换,大多数手动语音转换为文本或transcription services接受所有可用格式。当我们进行自动语音到文本服务时,我总是喜欢wav而不是mp3,因为它包含高位音频数据而不会丢失音频质量并被大多数语音引擎接受。以下是任何转录公司支持的格式列表:https://www.transcriptionwave.com/format.html