Question

我有50个wav文件的玻璃破碎声和50个正常声音的wav文件声。所有声音文件持续时间为1秒。然后我需要使用神经网络对声音进行分类。如何提取声音文件以及我应该使用哪种神经网络？

这是我朋友和我一直在做的代码：

%network input extraction (retrieve trimmed data audio)

p = which('audio_000.wav');
file_list = dir ([fileparts(p)  filesep 'audio_***.wav']);
% file 000-050 is glass break 
% file 051-100 is normal 
file_names = {file_list.name}';
n = length(file_names);
inp = zeros (n,6);

for k=1:n
    %read WAV file 
    aud1=audioread(file_names{k});
    a=16000;
    aud2=zeros(a,1);
    [m,o]=size(aud1);
    j=1:m;
    aud2(j)=aud1(j);

    %Fourrier Transforms
    %extract feature

    Fs=1000;
    nfft=500;
    X=fftshift(fft(aud2,nfft));
    X=X(1:nfft);
    mx=abs(X);
    f= -Fs/2:Fs/(nfft-1):Fs/2;

    %sorting to gets 5 peaks of FFT
    %retrieve 5 highest value of peaks 

    mx1=mx;
    f1=f;
    s=zeros(nfft,2);
    for i=1:nfft %sort the value of 5 peak amplitude and retrieve 5 highest
        if f1(i)<=1
            mx1(i)=0;
        end
        s(i,1)=mx(i);
        s(i,2)=f1(i);
    end
    s1=sortrows(s);
    s2=s1;
    for i=nfft:-1:2
        if s1(i,1)>s1(i-1,1) && s1(i,2)>s1(i-1,2)
            s2(i-1,1)=0;
        end
    end
    s3=sortrows(s2);
    s4=s3;

    for i=nfft:-1:2
    if s3(i,1)>s3(i-1,1) && s3(i,2)-s3(i-1,2)>-1
    s4(i-1,1)=0;
        end
    end
    s5=sortrows(s4);

    %get length of WAV files 
    l=m/10e4;

    % Input Vector for neural network
    % 5 input from FFT
    % i input from the length audio

    inp(k,1:end)=[s3(nfft:-1:nfft-4,2)' l];
end
figure, plot(aud1); 
figure, plot(f,mx);

% define target 
tar=zeros(2,1);

%tar(1:50) glass break
%tar(51:100) normal sound

tar(1:50,1)=0;
tar(51:100,1)=1;

trinput=inp';
trtarget=tar';

display('press any key to cont');

% neural network training

nnstart; %start neural network tool

Answer 1

让X成为包含您使用fft提取的要素的矩阵。 T是您的目标向量，其中T(i) = 0，如果您的第i个声音文件包含正常声音，T(i) = 1，如果您的第i个声音文件包含破碎玻璃的声音。

您可以设置神经网络的图层大小：

layerSize = 10;

并初始化您的网络

net = patternnet(layerSize);

然后您可以将数据划分为培训，验证和测试集

net.divideParam.trainRatio = 70/100;
net.divideParam.valRatio = 15/100;
net.divideParam.testRatio = 15/100;

现在您可以训练您的网络

[net,tr] = train(net,X,T);

并执行测试

outputs = net(X);
errors = gsubtract(T,outputs);
performance = perform(net,T,outputs);

最后

view(net)

请注意，您可以在Mathworks webpage中找到更详细说明的代码。

Matlab：音频提取功能和神经网络

1 个答案: