是否可以使用Google Cloud Platform机器学习语音API自动检测口语?
https://cloud.google.com/speech/docs/languages表示支持的语言列表,用户需要手动设置此参数以执行语音到文本。
由于 马赫什
答案 0 :(得分:3)
截至上个月,Google在其语音到文本API中增加了对口语检测的支持。 Google Cloud Speech v1p1beta1
尽管有一点限制-您必须提供可能的语言代码列表,最多只能输入3种,并且据说只有语音命令和语音搜索模式才支持。如果您知道音频中可能还有其他语言,这很有用。
来自他们的文档:
alternative_language_codes []:字符串
可选最多3个其他BCP-47语言标签的列表,列出 提供的音频的可能替代语言。查看语言 支持当前支持的语言代码列表。如果 列出了其他语言,识别结果将包含 以最可能检测到的语言(包括主要语言)进行识别 language_code。识别结果将包含的语言标签 音频中检测到的语言。注意:此功能仅 支持语音命令和语音搜索用例和性能 可能会因其他用例(例如电话录音)而异。”
答案 1 :(得分:1)
对Google Cloud Speech API的请求需要以下配置参数:encoding
,sampleRateHertz
和languageCode
。
https://cloud.google.com/speech/reference/rest/v1/RecognitionConfig
因此,Google Cloud Speech API服务无法自动检测所使用的语言。该服务将由此参数(languageCode
)配置,以开始识别该特定语言的语音。
如果您考虑与自动检测输入语言的Google Cloud Translation API并行,请考虑自动检测音频文件中使用的语言需要比文本更多的带宽,存储空间和处理能力文件。此外,Google Cloud Speech API还提供流式语音识别,这是一种实时语音到文本服务,其中特别需要languageCode
参数。