我有一个小应用程序,可以接收来自互联网的传入音频流,我正在尝试查找提示音或连续蜂鸣的频率。在发出提示音/提示音时,这是唯一会播放的声音。其余音频要么是静音,要么是讲话。我正在使用node-pitchfinder npm模块查找音调,当我使用由2,000Hz制成的示例音频剪辑时,该应用会打印出一到两个Hz内的频率。当我将音频流联机时,我会不断获得17,000 Hz之类的结果。我的猜测是音频信号中存在一些“噪声”,这就是节点音高查找器模块所要拾取的。
有什么办法可以实时滤除该噪声以获得准确的频率?
流音频文件为:http://relay.broadcastify.com/fq85hty701gnm4z.mp3
以下代码:
const fs = require('fs');
const fsa = require('fs-extra');
const Lame = require('lame');
const Speaker = require('speaker');
const Volume = require('pcm-volume');
const Analyser = require('audio-analyser')
const request = require('request')
const Chunker = require('stream-chunker');
const { YIN } = require('node-pitchfinder')
const detectPitch = YIN({ sampleRate: 44100})
//const BUFSIZE = 64;
const BUFSIZE = 500;
var decoder = new Lame.Decoder();
decoder.on('format', function(format){onFormat(format)});
var chunker = Chunker(BUFSIZE);
chunker.pipe(decoder);
var options = {
url: 'http://relay.broadcastify.com/fq85hty701gnm4z.mp3',
headers: {
"Upgrade-Insecure-Requests": 1,
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0 Safari/605.1.15"
}
}
var audio_stream = request(options);
//var audio_stream = fs.createReadStream('./2000.mp3');
audio_stream.pipe(chunker);
function onFormat(format)
{
//if (volume == "undefined")
volume = 1.0;
vol = new Volume(volume);
speaker = new Speaker(format);
analyser = createAnalyser(format);
analyser.on('data', sample);
console.log(format);
vol.pipe(speaker);
vol.pipe(analyser);
decoder.pipe(vol);
vol.setVolume(volume);
}
function createAnalyser(format)
{
return new Analyser({
fftSize: 8,
bufferSize: BUFSIZE,
'pcm-stream': {
channels: format.channels,
sampleRate: format.sampleRate,
bitDepth: format.bitDepth
}
});
}
var logFile = 'log.txt';
var logOptions = {flag: 'a'};
function sample()
{
if (analyser) {
const frequency = detectPitch(analyser._data)
console.log(frequency)
}
}
我的目标是在数据块中找到最主要的音频频率,以便找出音调。
我找到了一些应该使用python来完成的代码
def getFreq( pkt ):
#Use FFT to determine the peak frequency of the last chunk
thefreq = 0
if len(pkt) == bufferSize*swidth:
indata = np.array(wave.struct.unpack("%dh"%(len(pkt)/swidth), pkt))*window
# filter out everything outside of our bandpass Hz
bp = np.fft.rfft(indata)
minFilterBin = (bandPass[0]/(sampleRate/bufferSize)) + 1
maxFilterBin = (bandPass[1]/(sampleRate/bufferSize)) - 1
for i in range(len(bp)):
if i < minFilterBin:
bp[i] = 0
if i > maxFilterBin:
bp[i] = 0
# Take the fft and square each value
fftData = abs(bp)**2
# find the maximum
which = fftData[1:].argmax() + 1
# Compute the magnitude of the sample we found
dB = 10*np.log10(1e-20+abs(bp[which]))
#avgdB = 10*np.log10(1e-20+abs(bp[which - 10:which + 10].mean()))
if dB >= minDbLevel:
# use quadratic interpolation around the max
if which != len(fftData)-1:
warnings.simplefilter("error")
try:
y0, y1, y2 = np.log(fftData[which-1:which+2:])
x1 = (y2 - y0) * .5 / (2 * y1 - y2 - y0)
except RuntimeWarning:
return(-1)
# find the frequency and output it
warnings.simplefilter("always")
thefreq = (which + x1) * sampleRate/bufferSize
else:
thefreq = which * sampleRate/bufferSize
else:
thefreq = -1
return(thefreq)
答案 0 :(得分:3)
原始答案:
我无法为您提供解决方案,但是(希望)能为您提供足够的建议来解决问题。
我建议您将要分析的部分流保存到文件中,然后使用频谱分析仪(例如,使用Audacity)查看文件。这样,您可以确定音频流中是否存在17kHz信号。
如果音频流中存在17 kHz信号,则可以使用低通滤波器(例如,类型为lowpass
的{{3}}和频率在2 kHz以上的音频)对音频流进行滤波。
如果音频中不存在17 kHz信号,则可以尝试增加缓冲区大小BUFSIZE
(当前在代码中设置为500)。在audio-biquad的示例中,他们使用完整的音频文件进行音高检测。取决于音高检测算法的实现方式,与非常短的块(500个样本在采样率44100下大约11毫秒)相比,较大的音频数据块(即几秒钟)的结果可能会有所不同。从BUFSIZE
的较大值开始(例如44100-> 1秒),看看它是否有所不同。
python代码的解释:该代码使用node-pitchfinder
's GitHub page找出音频信号中存在的频率,然后搜索具有最高值的频率。通常对于2 kHz正弦波之类的简单信号来说效果很好。如果您想使用javascript来实现,可以使用FFT (fast fourier transform)来提供FFT实现。但是,要在没有数字信号处理理论知识的情况下实现这一权利是很大的挑战。
请注意:dsp.js不使用FFT,而是基于YIN algorithm。
更新
以下脚本使用audio-analyser
的fft数据并搜索最大频率。这种方法非常基础,并且只适用于仅占主导地位的一个频率的信号。与本例相比,YIN
算法更适合于音高检测。
const fs = require('fs');
const Lame = require('lame');
const Analyser = require('audio-analyser')
const Chunker = require('stream-chunker');
var analyser;
var fftSize = 4096;
var decoder = new Lame.Decoder();
decoder.on('format', format => {
analyser = createAnalyser(format);
decoder.pipe(analyser);
analyser.on('data', processSamples);
console.log(format);
});
var chunker = Chunker(fftSize);
var audio_stream = fs.createReadStream('./sine.mp3');
audio_stream.pipe(chunker);
chunker.pipe(decoder);
function createAnalyser(format) {
return new Analyser({
fftSize: fftSize,
frequencyBinCount: fftSize / 2,
sampleRate: format.sampleRate,
channels: format.channels,
bitDepth: format.bitDepth
});
}
function processSamples() {
if (analyser) {
var fftData = new Uint8Array(analyser.frequencyBinCount);
analyser.getByteFrequencyData(fftData);
var maxBin = fftData.indexOf(Math.max(...fftData));
var thefreq = maxBin * analyser.sampleRate / analyser.fftSize;
console.log(maxBin + " " + thefreq);
}
}