应用错误收集

在线视听数据的音频内容分析

时间：2012-02-04 06:47:12

标签： audio video-processing multimedia

我想开展一个项目，我必须根据其音频内容对在线视听数据进行细分和分类，即视听数据的不同部分将被分段并分类为静音，音乐，语音，语音+背景音乐等等基于他们的音频内容。

我知道我必须从视听数据中获取音频部分并提取零交叉，频谱峰值等功能，并找出分段边界以分割音频数据。

但是我一开始就迷路了。

我不知道如何从项目开始。软件的输出是不同类别下的视听数据片段，如静音，语音，音乐等。

如果有人让我知道，这将非常有用

哪种编程语言方便用于此目的？
我应该采取哪些步骤来开发此软件？

我没有数字信号处理的背景。如果我得到一些指导，这将非常有用

1 个答案:

答案 0 :(得分：0)

我建议调查一下多媒体框架，例如GStreamer。它是跨平台的，但最容易从它起源的Linux开始。它已经附带了各种插件来接收，解复用和解码音频和视频。它还有几个分析仪（例如用于音频和语音活动检测的电平和频谱分析仪）。这些可能是您实验的良好起点。 Gstreamer本身是用C语言编写的，但应用程序可以使用python，perl，c＃，c ++，java等语言绑定...