是否可以通过离线基本音频处理来检测字边界,以获得足够准确的WPM *估计值?我认为可以通过检测暂停(表示单词边界)来完成。它是跨语言的还是适用于所有语言?
在传统的语音识别中[(不是/相对于)现代机器/深度学习语音识别], 这被认为是更容易/解决的部分,找到单词边界或统计地将它们与正确的单词匹配?
我一直在使用的示例:web page with audio elements *,audio
我将使用网络音频API中的MediaElementAudioSourceNode和AudioNode在浏览器中进行此操作。
*每分钟字数
*更多关于我在做什么/有什么想法: 我是forking构建扩展名为Videospeed的扩展名为“Media Enhancer:音频/视频播放速度,快捷方式和控件”,您可以从名称中猜出新添加的功能,音频元素的播放速度,新的键盘快捷键,可选的计算WPM估计(因此我问这个问题的原因),以及更多包括我在内的高级用户。
答案 0 :(得分:2)
是否可以通过离线基本音频处理来检测字边界,以获得足够准确的WPM *估计值?
不,这相当于识别单词。
有许多算法用于语速评估,大多数算法只是通过检测手机甚至声音中的峰值来工作,你可以在这里检查一下
Robust Speech Rate Estimation for Spontaneous Speech Dagen Wang and Shrikanth S. Narayanan
最近的研究包括像这样的机器学习:
Online Speaking Rate Estimation Using Recurrent Neural Networks