在查看了一些服务/工具之后,我得出了一个结论。大多数文字转语音工具都太过技术性,机器人 - 换句话说,质量差的c语音。
是的,最重要的是,看起来它们带有“硬编码”的语音模板,因此缩短了多样性/定制。有些工具可以让你设定阅读速度和音高',但这还不够。
我对情绪方面背后的问题的猜测 - 很难从纯文本中判断情绪,如果只是一两句话就更难判断。此外,好的电脑是机器 - 机器没有情感,但这是一个不同的故事。
让我最困扰的是品质。例如,有一些这样的工具,用于切断单词的顶点,从而产生这些技术性的声音。感觉像句子结构有问题。是的,当人们正在研究这样的工具时,我想知道,是什么让他们不再努力改善那些...切断顶点,这不是一个小问题!另外,必须记住,一个好的,高质量的文字转语音软件是值得的,嗯......很多!因此产生了非常有利可图的产品。
哦,在流利的情况下,我隐藏着问题,感叹等等。 (可能那些不适用于流利,但我不是英语,请原谅我,如果是这样的话。)
- Loquendo:缺乏声音变化,有一些轻微的顶点/流畅性问题(取决于句子),在例子中有太多的咳嗽和借口!
- Nuance Vocalizer:虽然仍然缺乏多样性,但一些提供的声音是值得的。
- eSpeak:最好的机器人之一,因此程序标识(?!)
- Natural Reader (dumb autoplay!!):嗯,它有一定的流畅性,但仍然有一种技术感觉。
- iSpeech:用英文文本将声音设置为日语时笑得很开心。我敢打赌,日本人对此并不是很满意。
- Cepstral + Enhanced Voices ...加上增强的声音会给出好的蹩脚结果,所以,除了5个以上的声音外,没有任何增强。 >
- AT&T:流畅的流利,但是在句子结尾和过多的机器人方面遇到了问题!
- LumenVox TTS:看起来像是来自带有大量语音工具的背景,但仍会产生机器人声音。
- 还有一些......
如果我错过了值得一看的东西,请分享。 可以免费,商业,超级昂贵...只要它有效,我很感兴趣!
问题( -s )..
答案 0 :(得分:3)
我不知道您是否在寻找开放式解决方案,但如果您有Mac,则应该查看OS X advanced speech markup和“Repeat After Me”短语构建工具。它真的很强大。内置于Mac OS X 10.5及更高版本的Alex语音比其他语音更先进。
在Mac上,突出显示以下文字,按住Control键并点击,然后转到语音>开始讲话:
You talkin' to me
[[inpt PHON]] [[slnc 500]] [[rate -30]]
+yUW _1tAOl=kIHn ~AX [[pbas +3]]+mIY?
http://www.mattmontag.com/personal/mac-os-x-speech-synthesis-markup
答案 1 :(得分:0)
Google Translate使用的TTS非常适合短语,但可能会产生任何复杂的不自然的语调轮廓。不过,在单词级别,它令人印象深刻。 有一个小code example here
并且Ivona - 它们可能会产生比{1}更多的清晰度错误。谷歌翻译,但他们在节奏和语调方面做得更好。查看他们的'Raveena'声音,这是他们最好的声音之一。
答案 2 :(得分:0)
我知道这是一个老问题,但我刚看到IBM的“Watson”演示,它非常令人印象深刻!!他们支持多种语言,你可以控制音调,暂停,语调和其他一些变量。
如果你还在寻找这个,或者其他任何人正在寻找一个好的TTS,你应该去看看。
免责声明:我不为IBM或与此产品相关的任何工作,我发现它令人印象深刻!