应用错误收集

首先，我正在尝试创建一个可以将语音音频文件转换为转录文本的神经网络。我尝试使用Google的API以及IBM watson，但由于音频文件中使用的单词的性质（高度技术性，来自医学领域），抄录的质量非常糟糕。因此，音频包含谷歌和IBM的模型无法处理的几个医学术语，质量非常糟糕。

我有大约30,000个音频文件（质量非常好），每个音频文件平均1分钟，由某人手动转录。我想知道我是否可以使用音频文件和转录文本之间的映射来训练模型来识别文本？

我知道大多数语音到文本的训练方法在音频文件和文本之间都有一对一的映射。例如，某人说出映射到该单词的单词的音频文件。但是，在这个例子中，是否可以通过多对多映射获得良好的结果？