如何通过音频处理检测字边界/估计字数? (没有语音识别)

时间:2018-04-23 12:46:02

标签: speech-recognition web-audio speech-to-text speech audio-processing

是否可以通过离线基本音频处理来检测字边界,以获得足够准确的WPM *估计值?我认为可以通过检测暂停(表示单词边界)来完成。它是跨语言的还是适用于所有语言?

在传统的语音识别中[(不是/相对于)现代机器/深度学习语音识别], 这被认为是更容易/解决的部分,找到单词边界或统计地将它们与正确的单词匹配?

我一直在使用的示例:web page with audio elements *,audio

Audacity中波形视图上标记的单词边界: enter image description here

我将使用网络音频API中的MediaElementAudioSourceNodeAudioNode在浏览器中进行此操作。

*每分钟字数

*更多关于我在做什么/有什么想法: 我是forking构建扩展名为Videospeed的扩展名为“Media Enhancer:音频/视频播放速度,快捷方式和控件”,您可以从名称中猜出新添加的功能,音频元素的播放速度,新的键盘快捷键,可选的计算WPM估计(因此我问这个问题的原因),以及更多包括我在内的高级用户。

1 个答案:

答案 0 :(得分:2)

  

是否可以通过离线基本音频处理来检测字边界,以获得足够准确的WPM *估计值?

不,这相当于识别单词。

有许多算法用于语速评估,大多数算法只是通过检测手机甚至声音中的峰值来工作,你可以在这里检查一下

Robust Speech Rate Estimation for Spontaneous Speech Dagen Wang and Shrikanth S. Narayanan

最近的研究包括像这样的机器学习:

Online Speaking Rate Estimation Using Recurrent Neural Networks