我想写一个应用程序来检测“笑”与对话/单词/等不同。
我打算将音频或视频流式传输到Azure或Amazon上的机器学习中。
牛津计划,Wolfram Aplha和其他许多人让我无法确定我的选择。
问题
有没有办法检测音频流中的“笑声”?
答案 0 :(得分:1)
我想到的第一件事就是这样:
步骤1:创建一个相同长度的大型(hundrets更好的数千)audiofiles训练集。大约50%含笑,50%不含笑。
步骤2:特征工程:查找描述您的音节线的功能,如平均值,最大值,最小值,标准偏差,分布函数,傅立叶变换,......等等。
步骤3:使用这些功能训练分类器(例如决策树/ SVM /神经网络)能够将您的文件分成1(包含笑)和0(不包含笑)。
第4步:将您的信息流拆分为训练集音频文件的一部分,并使用您的分类器。
你也可以检查一下 http://repository.cmu.edu/cgi/viewcontent.cgi?article=1515&context=compsci
他们识别来自音障流的歌曲。听起来有点像shazam。这里的不同之处在于他们正在寻找一首特定的歌曲,而不是像笑一样不同的东西。但也许你可以调整他们的一些算法。