C#Array子集提取

时间:2009-06-19 23:20:40

标签: c# algorithm bytearray search

我有一个字节数组,我想确定这个字节数组的内容是否作为连续序列存在于另一个更大的数组中。这样做最简单的方法是什么?

3 个答案:

答案 0 :(得分:3)

天真的方法是:

public static bool IsSubsetOf(byte[] set, byte[] subset) {
    for(int i = 0; i < set.Length && i + subset.Length <= set.Length; ++i)
        if (set.Skip(i).Take(subset.Length).SequenceEqual(subset))
            return true;
    return false;
}

对于更有效的方法,您可以考虑更高级的字符串匹配算法,如KMP

答案 1 :(得分:3)

尝试调整一些字符串搜索算法。其中最快的是Boyer-Moore。它也很容易。对于二进制数据,Knuth-Morris-Pratt算法也可以非常有效地工作。

答案 2 :(得分:0)

这是这个答案的1/1端口:Searching for a sequence of Bytes in a Binary File with Java

这是一种非常有效的方式:

public static class KmpSearch {

    public static int IndexOf(byte[] data, byte[] pattern) {
        int[] failure = ComputeFailure(pattern);

        int j = 0;
        if (data.Length == 0) return -1;

        for (int i = 0; i < data.Length; i++) {
            while (j > 0 && pattern[j] != data[i]) {
                j = failure[j - 1];
            }
            if (pattern[j] == data[i]) { j++; }
            if (j == pattern.Length) {
                return i - pattern.Length + 1;
            }
        }
        return -1;
    }


    private static int[] ComputeFailure(byte[] pattern) {
        int[] failure = new int[pattern.Length];

        int j = 0;
        for (int i = 1; i < pattern.Length; i++) {
            while (j > 0 && pattern[j] != pattern[i]) {
                j = failure[j - 1];
            }
            if (pattern[j] == pattern[i]) {
                j++;
            }
            failure[i] = j;
        }

        return failure;
    }
}