应用错误收集

虽然理论上可行，但它很可能不实用。基本上有两种类型的人造声音：完全合成和基于样本。

如果您的TTS声音是完全合成的，那么它只能受到某些参数的影响，例如音高和速度。您最好的方法是尝试估算输入语音中的所有参数。
如果您的TTS语音是基于样本的，那么您可以尝试从用户收集足够的语音来构建一个全新的数据集。通常你需要尽可能diphone，这可能需要很长时间才能收集，除非你让用户专门用一些文字来收集它们。然后你的引擎需要能够接受语音部分并从中构建新的声音。

在这两种情况下，除非您还能模仿用户的韵律和特定发音，否则结果仍然会非常有说服力。如果您的TTS和识别模块不是由您自己开发或可扩展的，那么您可能会运气不好，因为大多数软件都不允许在运行时构建新的语音。