查找超出给定值的数组元素的总和?

时间:2017-03-21 16:35:05

标签: matlab matrix subset vectorization combinatorics

我正在尝试利用MATLAB中的矢量化,但我可能不得不求助于for循环。我真的不想那样做!是时候学习算法了。

鉴于这个(11乘3)阵列:

x = [...
4.9000   -0.1000   -5.1000
4.6000   -0.4000   -5.4000
3.0000   -2.0000   -7.0000
2.9000   -2.1000   -7.1000
2.9000   -2.1000   -7.1000
2.9000   -2.1000   -7.1000
2.8000   -2.2000   -7.2000
2.7000   -2.3000   -7.3000
2.7000   -2.3000   -7.3000
2.2000   -2.8000   -7.8000
1.8000   -3.2000   -8.2000
];

我想找到数组中11个元素的所有3 ^ 11 = 177147个可能的总和,其中11个元素中的每一个来自不同的行。我想在(12-by-?)数组中存储超过阈值16.0的总和以及构成每个总和的11个元素。

让我开始的任何想法?谢谢你的帮助。

3 个答案:

答案 0 :(得分:2)

以下是如何以矢量化方式进行的操作:

TR = 16;

sets = num2cell(single(x),2);

c = cell(1, numel(sets));
[c{:}] = ndgrid( sets{:} );
cartProd = cell2mat( cellfun(@(v)v(:), c, 'UniformOutput',false) );

validRows = cartProd(sum(cartProd,2) > TR,:); % output is [353x11]

请注意我如何使用single来节省空间并使计算速度稍快。

以上解决方案是this答案的改编。

经过进一步的思考,我想我已经想出了一种既快又更有效的方法。我们通过索引 x执行此操作,然后对索引执行上一个过程。你可能会问,为什么这样更好?这是因为我们可以将索引存储为uint8,这比double甚至single消耗的内存要少得多。我们还要保持double的完整x精度。因此:

function validRows = q42933114(x,thresh)
%% Input handling
if nargin < 2
  thresh = 16;
end
if nargin < 1
  x = [...
    4.9000   -0.1000   -5.1000
    4.6000   -0.4000   -5.4000
    3.0000   -2.0000   -7.0000
    2.9000   -2.1000   -7.1000
    2.9000   -2.1000   -7.1000
    2.9000   -2.1000   -7.1000
    2.8000   -2.2000   -7.2000
    2.7000   -2.3000   -7.3000
    2.7000   -2.3000   -7.3000
    2.2000   -2.8000   -7.8000
    1.8000   -3.2000   -8.2000
  ];
end

I = reshape(uint8(1:numel(x)),size(x));

sets = num2cell(I,2);

c = cell(1, numel(sets));
[c{:}] = ndgrid( sets{:} );
cartProd = cell2mat( cellfun(@(v)v(:), c, 'UniformOutput',false) );
validRows = x(cartProd(sum(x(cartProd),2) > thresh,:));

内存消耗比较:

方法1(旧):

>> whos
  Name                Size              Bytes  Class     Attributes

  c                   1x11            7795700  cell                
  cartProd       177147x11            7794468  single              
  sets               11x1                1364  cell                
  validRows         353x11              15532  single              

方法2(新):

>> whos
  Name                Size              Bytes  Class     Attributes

  c                   1x11            1949849  cell                
  cartProd       177147x11            1948617  uint8               
  sets               11x1                1265  cell                
  validRows         353x11              31064  double              

我们看到内存消耗确实较小(大约4倍),正如预期的那样。

运行时比较:

Method 1 -- 0.0110
Method 2 -- 0.0186

这里我们看到2 nd 方法实际上有点慢。在对此进行分析时,我们发现原因是x(...)这是相对昂贵的。

答案 1 :(得分:0)

我是这样做的。变量名称显然有改进的余地。

请注意,有353个匹配的行,这与@ Dev-iL的答案一致。

p = 11;
[a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,a11] = ...
    ndgrid(x(1,:),x(2,:),x(3,:),x(4,:),x(5,:),x(6,:),x(7,:),x(8,:),x(9,:),x(10,:),x(11,:));
a = a1+a2+a3+a4+a5+a6+a7+a8+a9+a10+a11;
y = spalloc(p+1,3^p,(p+1)*3^p);
for i = 1:3^p
    if a(i) >= 16.1
        y(:,i) = [a1(i),a2(i),a3(i),a4(i),a5(i),a6(i),a7(i),a8(i),a9(i),a10(i),a11(i),a(i)];
    end
end
nnz(y(p+1,:)); % 353 rows matching the criteria

答案 2 :(得分:-1)

我认为你没有比使用for循环更好的运气。可能有一个Matlab函数用于生成所有3 ^ 11组合,并将其用作一种索引,但是你会以这种方式消耗大量的内存。

代码也难以阅读。

然而,最近版本的Matlab并没有表现出非常糟糕的for循环,因为他们JIT代码。在它被解释之前,或JIT-ing用于特定目的。因此,你不想在Matlab中重新实现矩阵例程,但对于像这样的简单代码,它应该表现良好。