线性/非线性拟合到正弦曲线

时间:2013-01-07 13:33:10

标签: c algorithm curve-fitting

我看过thisthis

但我的问题略有不同。我知道我的数据是一条正弦曲线,未知周期和未知幅度,加上非高斯分布噪声。

我试图在C中使用GSL非线性算法来拟合它,但是拟合绝对可怕。我想知道我是否(错误地)使用非线性拟合算法,我应该使用线性算法?

如何判断特定数据集是否需要线性算法或非线性算法?

编辑:我的曲线确实噪声很大,因此使用FFT来计算频率可能会导致误报和错误拟合。我正在寻找一种更健壮的拟合方式。

Curve with about 170 points

如您所见,上图大约有170个点,下图大约有790个点。

enter image description here

噪声明显是非高斯的,并且与数据的幅度相比较大。我已经尝试过高斯分布式噪声的FFT,而且我很适合。在这里,它失败得非常糟糕。

已添加:链接到first时间序列数据。文件中的每一列都是不同的时间序列。

4 个答案:

答案 0 :(得分:6)

如果您知道您的数据是正弦曲线(可以表示为多个复指数),那么您可以使用Pisarkenko的谐波分解; http://en.wikipedia.org/wiki/Pisarenko_harmonic_decomposition

但是,如果您可以访问更多数据点,我的方法仍然是使用DFT。

<强>更新

我在你的数据上使用了Pisarenko的谐波分解(PHD),即使你的信号非常短(每个只有86个数据点),如果有更多的数据,PHD算法肯定有潜力。下面包括24个信号中的两个(第11列和第13列数据),用蓝色表示,红色的正弦曲线对应于PHD的估计幅度/频率值。 (注意相移未知)

plot of data in column 11 plot of data in column 13

我使用MATLAB(pisar.m)执行PHD:http://www.mathworks.com/matlabcentral/fileexchange/74

% assume data is one single sine curve (in noise)
SIN_NUM = 1; 

for DATA_COLUMN = 1:24
    % obtain amplitude (A), and frequency (f = w/2*pi) estimate
    [A f]=pisar(data(:,DATA_COLUMN),SIN_NUM);

    % recreated signal from A, f estimate
    t = 0:length(data(:,DATA_COLUMN))-1;
    y = A*cos(2*pi*f*t);

    % plot original/recreated signal
    figure; plot(data(:,DATA_COLUMN)); hold on; plot(y,'r')
    title({'data column ',num2str(DATA_COLUMN)});

    disp(A)
    disp(f)
end

导致了

1.9727     % amp. for  column 11
0.1323     % freq. for column 11
2.3231     % amp. for  column 13
0.1641     % freq. for column 13

PHD的验证:

我还做了另一个测试,我知道振幅和频率的值,然后添加噪声,看看PHD是否可以从噪声信号中正确估计值。该信号由两条相加的正弦曲线组成,频率分别为50Hz,120Hz,振幅分别为0.7,1.0。在下图中,红色曲线是原始曲线,蓝色曲线是附加噪声。 (图被裁剪)

test of PHD accuracy

Fs = 1000; % Sampling frequency
T = 1/Fs; % Sample time
L = 1000; % Length of signal
t = (0:L-1)*T; % Time vector

% Sum of a 50 Hz sinusoid and a 120 Hz sinusoid
x = 0.7*sin(2*pi*50*t) + sin(2*pi*120*t);
y = x + 0.4*randn(size(t)); % Sinusoids plus noise

figure;
plot(Fs*t(1:100),y(1:100)); hold on; plot(Fs*t(1:100),x(1:100),'r')
title('Signal Corrupted with Zero-Mean Random Noise (Blue), Original (Red)')

[A, f] = pisar(y',2); 
disp(A)
disp(f/Fs)

PHD估计放大器/频率值为:

0.7493    % amp wave 1  (actual 0.7)
0.9257    % amp wave 2  (actual 1.0)
58.5      % freq wave 1 (actual 50)
123.8     % freq wave 2 (actual 120)

对于相当多的噪音并不错,并且只知道信号所包含的波数。

回复@Alex:

是的,这是一个很好的算法,我在我的DSP研究中遇到过它,我认为它运作得很好,但重要的是要注意Pisarenko的Harm.Dec。将任何信号模型化为N> 0个正弦曲线,N从开始指定,并使用该值忽略噪声。因此,根据定义,只有当您大致了解数据的人体正弦曲线时,它才有用。如果您不知道N的值,并且您需要为一千个不同的值运行算法,那么肯定会建议采用不同的方法。也就是说,此后评估是直截了当的,因为它返回N个幅度和频率值。

多信号分类(MUSIC),是Pisarenko离开的另一种算法。 http://en.wikipedia.org/wiki/Multiple_signal_classification

答案 1 :(得分:4)

Kitchi:你能提供一些样本数据吗?您必须使用多长时间的典型信号? (就样本数量和正弦波周期数而言)信噪比(dB)是多少?

  1. 在您知道算法将起作用之前,我建议您使用python / numpy / scipy(或matlab / octave,或R / S或Mathematica ......)进行原型设计,无论您最喜欢哪种原型语言/工具集除了C.它将节省大量时间,你将使用更丰富的工具。

  2. 您确定噪音会严重影响FFT吗?这不一定是一个好的假设,特别是如果噪声相对“白”,并且分析窗口很长。如果正弦波的频率非常稳定,您可以进行大量的FFT,并从比信号强的数量级的信号中提取信号。尝试预期正弦波的几百到几百万个循环。

  3. 曲线拟合正弦波效果不佳。我猜周期性会产生很多局部最小值,而相移变量也会使问题显着非线性。您可以看到其他遇到过相同问题的人提出的问题。除非你预先线性化问题,否则最好尝试几乎任何其他东西,而不是非线性最小二乘拟合,这会让我... ...

  4. 自相关对于这种事情非常好。尝试立即计算整个信号的自相关(如果源频率稳定,则数据越多越好)。作为自相关中的高峰,正弦波周期应该非常明显,并且您可能会获得比FFT更准确的频率估计(除非您使用极大的FFT)。此外,您可以从第一个高自相关峰值的高度计算平均幅度。

  5. 编辑:经过进一步研究,有更多技术可能比FFT更适合您的问题。 Pisarenko的谐波分解(下面由Fredrik Rubin首先提出)是一个;另一个是Least squares spectral analysis(LSSA),它与你原来的问题想法非常相似。 LSSA有许多变体,例如Lomb-Scargle,基础追踪等,它们以各种方式处理我上面描述的拟合问题。但是我想如果你绝对不能在大型FFT中看到任何信号,那么其他方法都不可能找到任何东西:)

    P.S。有关无法正确拟合正弦波的其他问题,请参阅:

答案 2 :(得分:2)

如果你正在对sin进行回归,你可以使用FFT进行傅立叶变换。

修改

尝试使用滤镜消除噪音。如果您有物理源如传感器,请在传感器上放置低通滤波器。 FFT是相对较差的滤波器。

EDIT2 - 这种测量是完全错误的

可能是,你做错了测量。根据{{​​3}},您的采样频率太低,或者输入频率太高。这导致错误的解决方案,因为如果您采样5kHz采样例如3kHz,您将根据此定理测量2kHz。

我确信您无法通过此类测量来确定正确的输入频率。

答案 3 :(得分:2)

这实际上是一个谱估计问题。您正在尝试估算一个“线谱”,在那里您可以知道正弦波的数量(在您的情况下为1)。像MUSICESPRIT这样的方法应该能够解决问题。

作为参考,Stoica的书将派上用场。本书的第4章是线谱的参数化方法,其中包含用于查找所需信号的幅度,相位和频率的算法。这本书还附带algorithms implemented in MATLAB,它们也很容易自己实现。