我有50个wav文件的玻璃破碎声和50个正常声音的wav文件声。所有声音文件持续时间为1秒。然后我需要使用神经网络对声音进行分类。如何提取声音文件以及我应该使用哪种神经网络?
这是我朋友和我一直在做的代码:
%network input extraction (retrieve trimmed data audio)
p = which('audio_000.wav');
file_list = dir ([fileparts(p) filesep 'audio_***.wav']);
% file 000-050 is glass break
% file 051-100 is normal
file_names = {file_list.name}';
n = length(file_names);
inp = zeros (n,6);
for k=1:n
%read WAV file
aud1=audioread(file_names{k});
a=16000;
aud2=zeros(a,1);
[m,o]=size(aud1);
j=1:m;
aud2(j)=aud1(j);
%Fourrier Transforms
%extract feature
Fs=1000;
nfft=500;
X=fftshift(fft(aud2,nfft));
X=X(1:nfft);
mx=abs(X);
f= -Fs/2:Fs/(nfft-1):Fs/2;
%sorting to gets 5 peaks of FFT
%retrieve 5 highest value of peaks
mx1=mx;
f1=f;
s=zeros(nfft,2);
for i=1:nfft %sort the value of 5 peak amplitude and retrieve 5 highest
if f1(i)<=1
mx1(i)=0;
end
s(i,1)=mx(i);
s(i,2)=f1(i);
end
s1=sortrows(s);
s2=s1;
for i=nfft:-1:2
if s1(i,1)>s1(i-1,1) && s1(i,2)>s1(i-1,2)
s2(i-1,1)=0;
end
end
s3=sortrows(s2);
s4=s3;
for i=nfft:-1:2
if s3(i,1)>s3(i-1,1) && s3(i,2)-s3(i-1,2)>-1
s4(i-1,1)=0;
end
end
s5=sortrows(s4);
%get length of WAV files
l=m/10e4;
% Input Vector for neural network
% 5 input from FFT
% i input from the length audio
inp(k,1:end)=[s3(nfft:-1:nfft-4,2)' l];
end
figure, plot(aud1);
figure, plot(f,mx);
% define target
tar=zeros(2,1);
%tar(1:50) glass break
%tar(51:100) normal sound
tar(1:50,1)=0;
tar(51:100,1)=1;
trinput=inp';
trtarget=tar';
display('press any key to cont');
% neural network training
nnstart; %start neural network tool
答案 0 :(得分:0)
让X
成为包含您使用fft提取的要素的矩阵。 T
是您的目标向量,其中T(i) = 0
,如果您的第i个声音文件包含正常声音,T(i) = 1
,如果您的第i个声音文件包含破碎玻璃的声音。
您可以设置神经网络的图层大小:
layerSize = 10;
并初始化您的网络
net = patternnet(layerSize);
然后您可以将数据划分为培训,验证和测试集
net.divideParam.trainRatio = 70/100;
net.divideParam.valRatio = 15/100;
net.divideParam.testRatio = 15/100;
现在您可以训练您的网络
[net,tr] = train(net,X,T);
并执行测试
outputs = net(X);
errors = gsubtract(T,outputs);
performance = perform(net,T,outputs);
最后
view(net)
请注意,您可以在Mathworks webpage中找到更详细说明的代码。