我想开展一个项目,我必须根据其音频内容对在线视听数据进行细分和分类,即视听数据的不同部分将被分段并分类为静音,音乐,语音,语音+背景音乐等等基于他们的音频内容。
我知道我必须从视听数据中获取音频部分并提取零交叉,频谱峰值等功能,并找出分段边界以分割音频数据。
但是我一开始就迷路了。我不知道如何从项目开始。软件的输出是不同类别下的视听数据片段,如静音,语音,音乐等。
如果有人让我知道,这将非常有用
我没有数字信号处理的背景。如果我得到一些指导,这将非常有用
答案 0 :(得分:0)
我建议调查一下多媒体框架,例如GStreamer。它是跨平台的,但最容易从它起源的Linux开始。它已经附带了各种插件来接收,解复用和解码音频和视频。它还有几个分析仪(例如用于音频和语音活动检测的电平和频谱分析仪)。这些可能是您实验的良好起点。 Gstreamer本身是用C语言编写的,但应用程序可以使用python,perl,c#,c ++,java等语言绑定...