在MATLAB中,我有一个for loop
,它有很多内容要经过并填充sparse
矩阵。该程序非常慢,我想优化它,看看它很快就会完成。在两行中,我使用命令find
和MATLAB的编辑器警告我,使用logical indexing
代替find
将提高性能。我的代码非常类似于向mathworks newreader mathworks newsreader recommendation提供的代码,其中有一个值向量和一个由它生成的唯一值向量。使用find
获取唯一值中的索引(用于更新矩阵中的值)。简而言之,给出的代码是:
positions = find(X0_outputs == unique_outputs(j,1));
% should read
positions = X0_outputs == unique_outputs(j,1);
但是最后一行不是索引,而是一个零和一的向量。
我有一个说明性的例子,制作一组指数; tt=round(rand(1,6)*10)
:
tt = 3 7 1 7 1 7
制作一个独特的矢量; ttUNI=unique(tt)
ttUNI = 1 3 7
使用find获取唯一值集合中值的位置索引; find(ttUNI(:) == tt(1))
ans = 2
与使用逻辑索引进行比较; (ttUNI(:) == tt(1))
ans =
0
1
0
当我需要更新矩阵的索引时,值2
比二元矢量更有用。对于我的矩阵,我可以说mat(find(ttUNI(:) == tt(1)), 4)
并且有效。而使用(ttUNI(:) == tt(1))
需要后期处理。
有没有一种干净有效的方法来做所需的事情?或者在诸如此类的情况下使用find
是不可避免的?
更新 :我将按照用户推荐的方式在此处添加代码:@Jonas,以便更好地了解我遇到的问题并报告部分Profiler工具的结果
ALL_NODES = horzcat(network(:,1)',network(:,2)');
NUM_UNIQUE = unique(ALL_NODES);%unique and sorted
UNIQUE_LENGTH = length(NUM_UNIQUE);
TIME_MAX = max(network(:,3));
WEEK_NUM = floor((((TIME_MAX/60)/60)/24)/7);%divide seconds for minutes, for hours, for days and how many weeks
%initialize tensor of temporal networks
temp = length(NUM_UNIQUE);
%making the tensor a sparse 2D tensor!!! So each week is another replica of
%the matrix below
Atensor = sparse(length(NUM_UNIQUE)*WEEK_NUM,length(NUM_UNIQUE));
WEEK_SECONDS = 60*60*24*7;%number of seconds in a week
for ii=1:size(network,1)%go through all rows/observations
WEEK_NOW = floor(network(ii,3)/WEEK_SECONDS) + 1;
if(WEEK_NOW > WEEK_NUM)
disp('end of weeks')
break
end
data_node_i = network(ii,1);
Atensor_row_num = find(NUM_UNIQUE(:) == data_node_i)...
+ (WEEK_NOW-1)*UNIQUE_LENGTH;
data_node_j = network(ii,2);
Atensor_col_num = find(NUM_UNIQUE(:) == data_node_j);
%Atensor is sparse
Atensor(Atensor_row_num,Atensor_col_num) = 1;
end
此处UNIQUE_LENGTH = 223482
和size(network,1)=273209
。我将profiler tool
拖了几分钟,这不是程序完成所需的时间,而是在时间比例不会变化太大时达到稳定状态。 Atensor_row_num = find(NUM_UNI..
45.6%,Atensor_col_num = find(NUM_UNI...
43.4%。 Atensor(Atensor_row_num,Atenso...
分配给sparse
矩阵的值的行只有 8.9%。 NUM_UNIQUE
向量的长度非常大,因此find
是代码的一个重要方面;比稀疏矩阵操作更重要。这里的任何改进都很重要。我不知道这个算法是否有更有效的逻辑进展,而不是采用直接的方法来替换find
。
答案 0 :(得分:8)
find
确实是不可避免的。例如,如果你想循环索引,即
idx = find(someCondition);
for i = idx(:)'
doSomething
end
或者如果你想进行多级索引
A = [1:4,NaN,6:10];
goodA = find(isfinite(A));
everyOtherGoodEntry = A(goodA(1:2:end));
或者如果你想要前n个好的值
A = A(find(isfinite(A),n,'first');
在您的情况下,您可以使用find
unique
[uniqueElements,indexIntoA,indexIntoUniqueElements] = unique(A);
在尝试通过修改您认为需要的时间来优化代码之前,我建议您在代码上运行探查器以检查实际需要的时间。然后你可以发布实际循环的代码,我们也许可以提供帮助。
答案 1 :(得分:5)
如果您想在逻辑矢量中找到真值的索引,可以执行以下操作:
>> r = rand(1,5)
r =
0.5323 0.3401 0.4182 0.8411 0.2300
>> logical_val = r < 0.5 % Check whether values are less than 0.5
logical_val =
0 1 1 0 1
>> temp = 1:size(r,2) % Create a vector from 1 to the size of r
temp =
1 2 3 4 5
>> temp(logical_val) % Get the indexes of the true values
ans =
2 3 5