应用错误收集

你不能混合语言。

语音识别大致包含3部分 - ＆gt;声学模型，语言模型和字典。

声学模型是数据训练的结果，包含音频信号和语音之间的关系

字典包含单词及其发音方式，例如，单词TOP在一般语音识别字典上发音为“T AH P”。

语言模型是用于创建句子的单词之间的连接，例如单词“I”与“am”相关联，因此语音识别器很少（或从不）给出“我是”或“我是”的结果。

每种语言都有自己的声学模型（语音），词典（单词）和语言模型（句子），所以我们可以将它们混合起来。

问题：还可以吗？

答案是：是！

您可以使用许多工具构建自己的语言（在本例中为印地语+英语），我已经尝试过这种工具称为 CMU Sphinx / Pocket Sphinx。您可以构建自己的模型，训练它，以及从中制作一本字典。这将是很多工作，但你可以配置语音识别所需的任何东西。

任何平台实施的链接：https://github.com/cmusphinx

Google语音API无法以这种方式运行，并且它不是专为混合语言设计的。印度很少有公司为印地语+英语案例开发了专门的API，他们认为这种混合语言很好。