使用python在音频中查找语音的速度和语气

时间:2018-01-12 06:09:49

标签: python audio ffmpeg sox

鉴于音频,我想计算演讲的节奏。即它有多快或多慢。

目前我正在做以下事项:
- 将语音转换为文本并获取成绩单(使用免费工具) - 计算成绩单中的单词数量 - 计算文件的长度或持续时间 - 最后,style.scss

然而,获得的速度的准确性完全取决于转录,我认为这是不必要的步骤。

是否有任何python-library / sox / ffmpeg方式可以让我

  • 以简单的方式计算音频中谈话的速度/速度
  • 该音频的主导音高/音调?

我提到:我提到了:http://sox.sourceforge.net/sox.htmlhttps://digitalcardboard.com/blog/2009/08/25/the-sox-of-silence/

1 个答案:

答案 0 :(得分:2)

您的方法听起来很有趣,作为快速的一阶近似,但受到转录分辨率的限制。您可以直接分析音频文件。

我不熟悉Sox,但是从他们的手册中可以看出 stat 选项提供了&#34; ...关于音频的时间和频率域统计信息&#34; < / p>

Sox声称自己是一名&#34;瑞士军刀的音频操作&#34; ,只是通过浏览他们的文档似乎可能适合您找到一般的节奏。

如果你也想进行音调分析,那么你可以使用python开发自己的算法 - 我最近使用了 librosa ,发现它非常有用且记录良好。