如何用`logical indexing`(MATLAB)替换`find`命令,查找唯一值的向量值位置?

时间:2012-02-27 11:40:15

标签: matlab optimization indexing find

在MATLAB中,我有一个for loop,它有很多内容要经过并填充sparse矩阵。该程序非常慢,我想优化它,看看它很快就会完成。在两行中,我使用命令find和MATLAB的编辑器警告我,使用logical indexing代替find将提高性能。我的代码非常类似于向mathworks newreader mathworks newsreader recommendation提供的代码,其中有一个值向量和一个由它生成的唯一值向量。使用find获取唯一值中的索引(用于更新矩阵中的值)。简而言之,给出的代码是:

     positions = find(X0_outputs == unique_outputs(j,1));
% should read
     positions = X0_outputs == unique_outputs(j,1);

但是最后一行不是索引,而是一个零和一的向量。 我有一个说明性的例子,制作一组指数; tt=round(rand(1,6)*10)

 tt = 3     7     1     7     1     7

制作一个独特的矢量; ttUNI=unique(tt)

ttUNI = 1     3     7

使用find获取唯一值集合中值的位置索引; find(ttUNI(:) == tt(1))

ans = 2

与使用逻辑索引进行比较; (ttUNI(:) == tt(1))

ans =
 0
 1
 0

当我需要更新矩阵的索引时,值2比二元矢量更有用。对于我的矩阵,我可以说mat(find(ttUNI(:) == tt(1)), 4)并且有效。而使用(ttUNI(:) == tt(1))需要后期处理。

有没有一种干净有效的方法来做所需的事情?或者在诸如此类的情况下使用find是不可避免的?

更新 :我将按照用户推荐的方式在此处添加代码:@Jonas,以便更好地了解我遇到的问题并报告部分Profiler工具的结果

ALL_NODES = horzcat(network(:,1)',network(:,2)');
NUM_UNIQUE = unique(ALL_NODES);%unique and sorted    
UNIQUE_LENGTH = length(NUM_UNIQUE);
TIME_MAX = max(network(:,3));
WEEK_NUM = floor((((TIME_MAX/60)/60)/24)/7);%divide seconds for minutes, for hours, for days and how many weeks
%initialize tensor of temporal networks
temp = length(NUM_UNIQUE);
%making the tensor a sparse 2D tensor!!! So each week is another replica of
%the matrix below
Atensor = sparse(length(NUM_UNIQUE)*WEEK_NUM,length(NUM_UNIQUE));
WEEK_SECONDS = 60*60*24*7;%number of seconds in a week

for ii=1:size(network,1)%go through all rows/observations 
    WEEK_NOW = floor(network(ii,3)/WEEK_SECONDS) + 1;
    if(WEEK_NOW > WEEK_NUM)
        disp('end of weeks')
        break
    end
    data_node_i = network(ii,1);
    Atensor_row_num = find(NUM_UNIQUE(:) == data_node_i)...
        + (WEEK_NOW-1)*UNIQUE_LENGTH;
    data_node_j = network(ii,2);
    Atensor_col_num = find(NUM_UNIQUE(:) == data_node_j);
    %Atensor is sparse
    Atensor(Atensor_row_num,Atensor_col_num) = 1;          
end

此处UNIQUE_LENGTH = 223482size(network,1)=273209。我将profiler tool拖了几分钟,这不是程序完成所需的时间,而是在时间比例不会变化太大时达到稳定状态。 Atensor_row_num = find(NUM_UNI.. 45.6%Atensor_col_num = find(NUM_UNI... 43.4%Atensor(Atensor_row_num,Atenso...分配给sparse矩阵的值的行只有 8.9%NUM_UNIQUE向量的长度非常大,因此find是代码的一个重要方面;比稀疏矩阵操作更重要。这里的任何改进都很重要。我不知道这个算法是否有更有效的逻辑进展,而不是采用直接的方法来替换find

2 个答案:

答案 0 :(得分:8)

在某些情况下,{p> find确实是不可避免的。例如,如果你想循环索引,即

idx = find(someCondition);
for i = idx(:)'
    doSomething
end

或者如果你想进行多级索引

A = [1:4,NaN,6:10];
goodA = find(isfinite(A));
everyOtherGoodEntry = A(goodA(1:2:end));

或者如果你想要前n个好的值

A = A(find(isfinite(A),n,'first');

在您的情况下,您可以使用find

的其他输出来避免拨打unique
[uniqueElements,indexIntoA,indexIntoUniqueElements] = unique(A);

在尝试通过修改您认为需要的时间来优化代码之前,我建议您在代码上运行探查器以检查实际需要的时间。然后你可以发布实际循环的代码,我们也许可以提供帮助。

答案 1 :(得分:5)

如果您想在逻辑矢量中找到真值的索引,可以执行以下操作:

>> r = rand(1,5) 
r =
    0.5323    0.3401    0.4182    0.8411    0.2300

>> logical_val = r < 0.5            % Check whether values are less than 0.5
logical_val =
     0     1     1     0     1

>> temp = 1:size(r,2)               % Create a vector from 1 to the size of r
temp =
     1     2     3     4     5

>> temp(logical_val)                % Get the indexes of the true values
ans =
     2     3     5