我需要计算3天的相关性。下面给出了一个样本矩阵。我的问题是,ID可能不是每天都在宇宙中。例如,AAPL可能总是在宇宙中,但是公司 - CCL可能在我的宇宙中只有2天。我很感激矢量化解决方案。我可能不得不在这里使用结构/ accumarray
等,因为相关矩阵的大小可能会有所不同。
% col1 = tradingDates, col2 = companyID_asInts, col3 = VALUE_forCorrelation
rawdata = [ ...
734614 1 0.5;
734614 2 0.4;
734614 3 0.1;
734615 1 0.6;
734615 2 0.4;
734615 3 0.2;
734615 4 0.5;
734615 5 0.12;
734618 1 0.11;
734618 2 0.9;
734618 3 0.2;
734618 4 0.1;
734618 5 0.33;
734618 6 0.55;
734619 2 0.11;
734619 3 0.45;
734619 4 0.1;
734619 5 0.6;
734619 6 0.5;
734620 5 0.1;
734620 6 0.3] ;
'3天相关':
% 734614 & 734615 corr is ignored as this is a 3-day corr
% 734618_corr = corrcoef(IDs 1,2,3 values are used. ID 4,5,6 is ignored) -> 3X3 matrix
% 734619_corr = corrcoef(IDs 2,3,4,5 values are used. ID 1,6 is ignored) -> 3X4 matrix
% 734620_corr = corrcoef(IDs 5,6 values are used. ID 1,2,3,4 is ignored) -> 3X2 matrix
真实数据涵盖了1995年至2011年的Russel1000宇宙,拥有超过410万行。期望的相关性超过20天。
答案 0 :(得分:1)
我不会尝试在这里获得一个矢量化解决方案:MATLAB JIT compiler意味着在最近的MATLAB版本中循环通常可以同样快。
您的矩阵看起来很像稀疏矩阵:它有助于将其转换为该表单,以便您可以使用数组索引吗?这可能只有在第三列中的数据永远不能为0时才有效,否则您将不得不保留当前的显式列表并使用如下内容:
dates = unique(rawdata(:, 1));
num_comps = max(rawdata(:, 2));
for d = 1:length(dates) - 2;
days = dates(d:d + 2);
companies = true(1, num_comps);
for curr_day = days'
c = false(1, num_comps);
c(rawdata(rawdata(:, 1) == curr_day, 2)) = true;
companies = companies & c;
end
companies = find(companies);
data = zeros(3, length(companies));
for curr_day = 1:3
for company = 1:length(companies)
data(curr_day, company) = ...
rawdata(rawdata(:, 1) == days(curr_day) & ...
rawdata(:, 2) == companies(company), 3);
end
end
corrcoef(data)
end