在Matlab

时间:2017-03-27 16:56:28

标签: string matlab hamming-distance variable-length

我想在Matlab中计算两个可变长度字符串之间的汉明距离。对于固定长度字符串,以下语法解决了我的问题:

str1 = 'abcde';
str2 = 'abedc';

sum(str1 ~= str2)

ans = 2

如何有效地为可变长度字符串执行此操作?

谢谢!

编辑:因为这是一个合理的问题:对于每个字符,一个字符串比另一个字符串长,汉明距离应该递增。例如

str1 = 'abcdef';
str2 = 'abc';

答案应该是3。

2 个答案:

答案 0 :(得分:2)

这是一种方法:

str1 = 'abcdef';
str2 = 'abc';
clear t
t(1,:) = str1+1; % +1 to make sure there are no zeros
t(2,1:numel(str2)) = str2+1; % if needed, this right-pads with zero or causes t to grow
result = sum(t(1,:)~=t(2,:));

答案 1 :(得分:1)

虽然@LuisMendo的答案适用于给定的例子(对你来说可能已经足够好了)但它不适用于这个:

str1 = 'abcdef';
str2 = 'bcd';
clear t
t(1,:) = str1+1; % +1 to make sure there are no zeros
t(2,1:numel(str2)) = str2+1; % if needed, this right-pads with zero or causes t to grow
result = sum(t(1,:)~=t(2,:)) % result = 6

要确保即使较短的字符串出现在较长的字符串的中间,您也应该检查所有选项。一种方法是:

str1 = 'bcd';
str2 = 'abcdef';
len1 = length(str1);
len2 = length(str2);
n = len2 - len1;
str1rep_temp = repmat(str1,[1,n+1]);
str1rep = -ones(n+1,len2);
str1rows = repmat(1:n+1,[len1,1]);
str1cols = bsxfun(@plus,(1:len1)',0:n);
str1idxs = sub2ind(size(str1rep),str1rows(:),str1cols(:));
str1rep(str1idxs) = str1rep_temp;
str2rep = double(repmat(str2,[n+1, 1]));
res = min(sum(str1rep ~= str2rep,2)); % res = 3