示例1
假设我有两个阵列:
('n','v','a','n','i','n','n','v','a','n')
('a','n','n','n','v','a','n','v','n')
我想找到两者之间的所有匹配序列(可能长于两个以上的单元格),这些序列不是其他较长匹配的子匹配。这就是我所看到的匹配:
('n','n','v','a','n')
=数组1中的位置5和数组2中的位置3
数组1 :('n','v','a','n','i','n','n','v','a','n'< /强>)
数组2 :('a','n','n','n','v','a','n','v','n')
示例2
('n','v','a','n','i','n','n','v','i','n')
('a','n','i','n','p','v','i','n','v','n')
在这里,我们有多个序列,但它们更短,如下所示:
('a','n','i','n')
= arraay 1中的位置2和阵列2中的位置0
('v','i','n')
=数组1中的位置7和数组2中的位置5
数组1 :('n','v','a','n','i','n','a','v',' I”, 'n' 个)
数组2 :( 'a','n','i','n','p','v','i','n', 'v', 'N')
摘要
两个示例中都有多个匹配项,但它们都存在于至少一个数组中的较大匹配项中。
那么什么是最有效的(低内存和高速的平衡,想想移动设备)代码可以实现这一目标? JavaScript代码示例非常棒!
答案 0 :(得分:2)
如果这两个数组的长度为m
和n
,我认为在一般情况下你可能比O(mn)
做得更好。假设您的阵列具有交替的a
s,但其他字符不同,如此
[a, b, a, c, a, d, a, e, a, f, a, g]
[a, h, a, i, a, j, a, k, a, l, a, m]
匹配数为(m/2)*(n/2)
。如果您想要全部找到它们,您的算法最多可以O(mn)
。
您可以在O(mn)
时间内执行此操作,如下所示。想象一下,将一个数组滑过另一个数组:
[a, b, c, d, e]
[f, g, h, i, j]
[a, b, c, d, e]
[f, g, h, i, j]
[a, b, c, d, e]
[f, g, h, i, j]
...
[a, b, c, d, e]
[f, g, h, i, j]
有m + n - 1
个可能的职位。对于每个位置,您必须迭代对齐的字符对(这些对中最差min(m, n)
)并找到最长的匹配字符链。这有时间复杂性
O((m + n) * min(m, n)) = O(mn)
此解决方案的缺点是所花费的时间实际上取决于数组的长度,而不取决于内容。例如,即使数组相等,它仍然需要O(nm)
时间(当它显然只需要O(n)
时间来检查它并返回一个答案时)。如另一个答案中所示,如果匹配序列的数量很少,那么有更聪明的解决方案将花费更少的时间。
答案 1 :(得分:2)
这是我在一般LCS,O(mn)
时间和空间版本上的JavaScript尝试。由于我们逐行进行,因此只需重复使用两行就可以减少空间,完成后将第二行复制到第一行。
var example1 = [['n','v','a','n','i','n','n','v','a','n']
,['a','n','n','n','v','a','n','v','n']],
example2 = [['n','v','a','n','i','n','n','v','i','n']
,['a','n','i','n','v','i','n','v','n']];
function f(as){
var M = new Array(as[0].length),
result = [];
for (var i=0; i<as[0].length; i++){
M[i] = new Array(as[1].length).fill(0);
for (var j=0; j<as[1].length; j++){
if (as[0][i] == as[1][j]){
M[i][j] = M[i-1] && M[j-1] ? 1 + M[i-1][j-1] : 1;
}
if ((i == as[0].length - 1 || j == as[1].length - 1) && M[i][j] > 2){
result.push([i - M[i][j] + 1,j - M[i][j] + 1,M[i][j]]);
} else if (i > 1 && j > 1 && M[i][j] < M[i-1][j-1] && M[i-1][j-1] > 2){
result.push([i - M[i-1][j-1],j - M[i-1][j-1],M[i-1][j-1]]);
}
}
}
return result;
}
console.log(JSON.stringify(f(example2))); // [[2,0,4],[6,3,4]]
答案 2 :(得分:0)
这里有一个 O(n) O(n + k)解决方案,用于两个字符串A
和B
,其长度总和为n,并且具有k这样的最大匹配子串:
A
和B
上构建generalised suffix tree。 (这只是单个字符串A$B#
上的普通后缀树,其中$
和#
是单个字符,不会出现在A
或B
中的任何位置{1}}。)这可以在O(n)时间内使用例如Ukkonen的算法。A
后缀对应的叶子,以及该节点下是否有与B
后缀对应的叶子。 (练习:如何回答这个问题?)对于小数字&gt; = 3个字符串,这也可以轻松工作:计算并存储在当前节点下面有叶子的输入字符串的 set ,并且&#34; fire&#34;当这个集合变满时。