在线视听数据的音频内容分析

时间:2012-02-04 06:47:12

标签: audio video-processing multimedia

我想开展一个项目,我必须根据其音频内容对在线视听数据进行细分和分类,即视听数据的不同部分将被分段并分类为静音,音乐,语音,语音+背景音乐等等基于他们的音频内容。

我知道我必须从视听数据中获取音频部分并提取零交叉,频谱峰值等功能,并找出分段边界以分割音频数据。

但是我一开始就迷路了。

我不知道如何从项目开始。软件的输出是不同类别下的视听数据片段,如静音,语音,音乐等。

如果有人让我知道,这将非常有用

  • 哪种编程语言方便用于此目的?
  • 我应该采取哪些步骤来开发此软件?

我没有数字信号处理的背景。如果我得到一些指导,这将非常有用

1 个答案:

答案 0 :(得分:0)

我建议调查一下多媒体框架,例如GStreamer。它是跨平台的,但最容易从它起源的Linux开始。它已经附带了各种插件来接收,解复用和解码音频和视频。它还有几个分析仪(例如用于音频和语音活动检测的电平和频谱分析仪)。这些可能是您实验的良好起点。 Gstreamer本身是用C语言编写的,但应用程序可以使用python,perl,c#,c ++,java等语言绑定...