应用错误收集

是否可以通过离线基本音频处理来检测字边界，以获得足够准确的WPM *估计值？我认为可以通过检测暂停（表示单词边界）来完成。它是跨语言的还是适用于所有语言？

在传统的语音识别中[（不是/相对于）现代机器/深度学习语音识别]，这被认为是更容易/解决的部分，找到单词边界或统计地将它们与正确的单词匹配？

我一直在使用的示例：web page with audio elements *，audio

Audacity中波形视图上标记的单词边界：

我将使用网络音频API中的MediaElementAudioSourceNode和AudioNode在浏览器中进行此操作。

*每分钟字数

*更多关于我在做什么/有什么想法：我是forking构建扩展名为Videospeed的扩展名为“Media Enhancer：音频/视频播放速度，快捷方式和控件”，您可以从名称中猜出新添加的功能，音频元素的播放速度，新的键盘快捷键，可选的计算WPM估计（因此我问这个问题的原因），以及更多包括我在内的高级用户。

如何通过音频处理检测字边界/估计字数？（没有语音识别）

1 个答案:

如何通过音频处理检测字边界/估计字数？ （没有语音识别）

1 个答案:

如何通过音频处理检测字边界/估计字数？（没有语音识别）