我有一个包含时间序列的双精度矩阵(X
)。当缺少值时,某些观察结果设置为NaN
。我想计算每列的标准偏差,以获得每列的std dev值。由于我混入了NaN,一个简单的std(X)
将无效,如果我尝试std(X(~isnan(X))
,我最终得到整个矩阵的std dev,而不是每列一个。
有没有办法简单地省略第一个暗淡的std dev计算中的NaN而不采用循环?
请注意,我只想忽略单个值,而不是整个行或列,如果是NaN。显然,我不能将NaN设置为零或任何其他值,因为这会影响计算。
答案 0 :(得分:2)
查看nanstd
(统计工具箱)。
想法是使用nanmean
使数据居中,然后用零替换NaN,最后计算标准偏差。
请参阅下面的nanmean
。
% maximum admissible fraction of missing values
max_miss = 0.6;
[m,n] = size(x);
% replace NaNs with zeros.
inan = find(isnan(x));
x(inan) = zeros(size(inan));
% determine number of available observations on each variable
[i,j] = ind2sub([m,n], inan); % subscripts of missing entries
nans = sparse(i,j,1,m,n); % indicator matrix for missing values
nobs = m - sum(nans);
% set nobs to NaN when there are too few entries to form robust average
minobs = m * (1 - max_miss);
k = find(nobs < minobs);
nobs(k) = NaN;
mx = sum(x) ./ nobs;
请参阅下面的nanstd
。
flag = 1; % default: normalize by nobs-1
% center data
xc = x - repmat(mx, m, 1);
% replace NaNs with zeros in centered data matrix
xc(inan) = zeros(size(inan));
% standard deviation
sx = sqrt(sum(conj(xc).*xc) ./ (nobs-flag));