Question

是否存在一个JavaScript库或产品，它为动画，演讲头像提供文本到语音，不使用Flash或任何其他插件。我的想法是输入文字，化身嘴在播放音频时移动。

目标是跨浏览器，跨设备，无插件，基于网络的谈话聊天头像。

我看着CrazyTalk，看起来很完美，但遗憾的是，这依赖于统一引擎。

然后我开始考虑通过将现有文本与语音服务相结合并尝试从音频波中提取音素并将我自己的音素字典制作为画布形状来自行编辑。这似乎并不存在（即使它确实存在，我也不确定我将如何处理口音移动到音频的时间）。

2015年，我觉得这样的事情应该已经存在，我不应该试图发明它。

修改现在我正在研究Microsft.Speech。我真的需要在音节中吐出类似IPA的东西，我不确定MS.Speech是否会这样做。 TTS波创建很容易。我可以将文本发送到服务器，将语音音节与口点坐标相匹配......如果我可以将这些音节打破。是什么将文本分解为拼音音节。

Answer 1

您想要查看Speech Synthesis API。最基本的用途是：

var msg = new SpeechSynthesisUtterance('Hello World');
window.speechSynthesis.speak(msg);

以下是浏览器支持： http://caniuse.com/web-speech。目前只有Chrome＆amp; Safari支持它。

Answer 2

我想我有办法。简而言之，不，似乎没有现成的效用......然而;-)

我决定使用微软语音平台。它比返回音素更好，它提供随附的视位ID以及它们出现的音频位置。所以我可以生成一个wav文件和一个viseme元数据列表服务器端并检索它们。现在来弄清楚如何同步它们。

Answer 3

我遇到了类似的问题。

首先，你看过www.haptek.com了吗？这正是你想要的......但它似乎已经死了，只适用于xp ......

其次，可以直接从浏览器中的脚本使用Microsoft语音api ......但是我认为chrome tts是更好的选择。