鉴于音频,我想计算演讲的节奏。即它有多快或多慢。
目前我正在做以下事项:
- 将语音转换为文本并获取成绩单(使用免费工具)
- 计算成绩单中的单词数量
- 计算文件的长度或持续时间
- 最后,style.scss
。
然而,获得的速度的准确性完全取决于转录,我认为这是不必要的步骤。
是否有任何python-library / sox / ffmpeg方式可以让我
我提到:我提到了:http://sox.sourceforge.net/sox.html和https://digitalcardboard.com/blog/2009/08/25/the-sox-of-silence/
答案 0 :(得分:2)
您的方法听起来很有趣,作为快速的一阶近似,但受到转录分辨率的限制。您可以直接分析音频文件。
我不熟悉Sox,但是从他们的手册中可以看出 stat 选项提供了&#34; ...关于音频的时间和频率域统计信息&#34; < / p>
Sox声称自己是一名&#34;瑞士军刀的音频操作&#34; ,只是通过浏览他们的文档似乎可能适合您找到一般的节奏。
如果你也想进行音调分析,那么你可以使用python开发自己的算法 - 我最近使用了 librosa ,发现它非常有用且记录良好。