Question

我有一个数据文件，其中有N = 428个主题，每个主题回答相同的8个问题。它看起来像这样：

 question subject  score    
    1        1       42         
    2        1       12
    3        1       13
    4        1       43
    5        1       22
    6        1       43 
    7        1       54
    8        1       66
    1        2       41
    2        2       11
   ...      ...     ...

我想计算并存储一个反映每个主题得分的协方差矩阵。

因此，单元格（1,1）具有主题1的方差。然后单元格（1,2）和（2,1）都具有相同的值，即主题1和主题2之间的协方差。虽然在上表中你不能看到主题2的所有内容。数据看起来似乎与主题1有一些正的协方差。

n 选择 k 必须计算唯一协方差，我计算总共为91378。

我怎样才能有效地实现这一目标？

编辑：使用@GameOfThrows中的代码我能够使用循环获得正在运行的版本：

crowd_cov = NaN(428,428);

for i = 1:length(allpairs)
    Z = cov(score(indexSub1(i,1):indexSub1(i,2)),score(indexSub2(i,1):indexSub2(i,2)));
    first = allpairs(i,1);
    second = allpairs(i,2);
    crowd_cov(first,first) = Z(1,1);
    crowd_cov(second,second) = Z(2,2);
    crowd_cov(first,second) = Z(1,2);
    crowd_cov(second,first) = Z(2,1);
end

我对此感到高兴，尽管我仍然欢迎解释我如何更有效地编码。

Answer 1

所以你想要共同方差，它告诉我你有两个随机变量，比如主题1的得分和主题2的得分，现在让我们希望列问题不会在这方面发挥重要作用，但是如果每个主题的问题数量相同，那么它将极大地提高程序的效率（因为它允许快速索引）。

allpairs = combnk(1:max(subject),2) %// all possible combinations of subjects starting from subject 1 to subject N and the 2 means you want pairs.

现在请注意，这没有重复，因此sub 1 vs sub 2只发生一次，sub 2 vs sub 1不存在。

现在你想对每一对做matlab cov（你需要正确地索引到分数）。如果您有相同数量的问题，这将为您节省大量时间，为每个主题提出8个问题：

indexSub1 = [(allpairs(:,1)*8 -7),(allpairs(:,1)*8)]
indexSub2 = [(allpairs(:,2)*8 -7),(allpairs(:,2)*8)]

现在你拥有所有正确的索引，你可以使用cov;作为一个函数，将它应用于

的每8个元素

cov(score(indexSub1),score(indexSub2)).

如果问题的数量不一样，那么您可能必须使用find来正确索引，这会使您的程序慢一点。

最后，您可以将矩阵转换为单元格并使用cellfun应用cov，或者您可以使用循环来实现更简单的表示（我建议使用循环吗？否）。

编辑：

为了澄清，我建议您拥有indexSub1和indexSub2，您可以将它们转换为91378 * 2单元格，其中每个单元格由8个分数组成。这将允许您使用Matlab的cellfun（其中函数应用于每个单元格）。这将大大提高你的速度。

MATLAB：从这些数据中计算协方差矩阵的有效方法

1 个答案: