
时间:2012-08-24 05:09:52

标签: c++ string-search

我需要实现一个字符串搜索算法,该算法在位文本中找到位模式(匹配可能不是字节/字对齐)。对于初学者,我实现了Boyer-Moore算法,但比较单个位对于我的目的来说太慢了。所以我尝试实现一个基于阻塞的版本,它将比较this paper中描述的整个字节/单词,但它变得复杂且难以管理(部分原因是我不完全理解我在做什么。)


我的具体用例是模式长度N >= 32,文本窗口2N和打包到int的位。在这种情况下,N也是字符大小N % 8 == 0的倍数。我预处理一次并多次使用更改文本,比如Boyer-Moore。第一场比赛就是我所需要的。表现是关键。

编辑:成功实施Blocked Boyer-Moore算法后,我发现没有任何改进(我的点滴版本更快!)这可能是我自己的错误,因为我一直在绞我的大脑并将其优化到没有多行评论就没有意义的程度,但它仍然较慢。 Here它是。

3 个答案:

答案 0 :(得分:3)



答案 1 :(得分:2)



有趣的问题。我把一个只进行基于字节的比较的实现(借助于预先计算的位模式和位掩码)放在一起,而不是在比较时执行昂贵的位操作。结果,它应该相当快。它没有实现为Boyer-Moore algorithm讨论的任何移位规则(性能优化),因此可以进一步改进。

虽然此实现确实依赖于模式位的数量%CHAR_BIT == 0 - 在8位机器上,符合N%8 == 0的条件,但实现将找到非字节对齐的位模式。 (它目前还需要8位字符(CHAR_BIT == 8),但在不太可能的情况下,您的系统不使用8位字符,通过将所有数组/向量从uint8_t更改为char并调整,可以很容易地进行调整它们包含的值以反映正确的位数。)





//  BitStringMatch.cpp

#include "stdafx.h"
#include <iostream>
#include <cstdint>
#include <vector>
#include <memory>
#include <cassert>

int _tmain(int argc, _TCHAR* argv[])
    //Enter text and pattern data as appropriate for your application.  This implementation assumes pattern bits % CHAR_BIT == 0
    uint8_t text[] = { 0xcc, 0xcc, 0xcc, 0x5f, 0xe0, 0x1f, 0xe0, 0x0c }; //1010 1010, 1010 1010, 1010 1010, 010*1 1111, 1110 0000, 0001 1111, 1110 0000, 000*0 1010 
    uint8_t pattern[] = { 0xff, 0x00, 0xff, 0x00 }; //Set pattern to 1111 1111, 0000 0000, 1111 1111, 0000 0000

    assert( CHAR_BIT == 8 ); //Sanity check
    assert ( sizeof( text ) >= sizeof( pattern ) ); //Sanity check

    std::vector< std::vector< uint8_t > > shiftedPatterns( CHAR_BIT, std::vector< uint8_t >( sizeof( pattern ) + 1, 0 ) );  //+1 to accomodate bit shifting of CHAR_BIT bits.
    std::vector< std::pair< uint8_t, uint8_t > > compareMasks( CHAR_BIT, std::pair< uint8_t, uint8_t >( 0xff, 0x00 ) );

    //Initialize pattern shifting through all bit positions
    for( size_t i = 0; i < sizeof( pattern ); ++i ) //Start by initializing the unshifted pattern
        shiftedPatterns[ 0 ][ i ] = pattern[ i ];

    for( size_t i = 1; i < CHAR_BIT; ++i )  //Initialize the other patterns, shifting the previous vector pattern to the right by 1 bit position
        compareMasks[ i ].first >>= i;  //Set the bits to consider in the first...
        compareMasks[ i ].second = 0xff << ( CHAR_BIT - i ); //and last bytes of the pattern

        bool underflow = false;
        for( size_t j = 0; j < sizeof( pattern ) + 1; ++j )
            bool thisUnderflow = shiftedPatterns[ i - 1 ][ j ] & 0x01 ? true : false; 
            shiftedPatterns[ i ][ j ] = shiftedPatterns[ i - 1][ j ] >> 1;

            if( underflow ) //Previous byte shifted out a 1; shift in a 1
                shiftedPatterns[ i ][ j ] |= 0x80;  //Set MSb to 1

            underflow = thisUnderflow;

    //Search text for pattern
    size_t maxTextPos = sizeof( text ) - sizeof( pattern );
    size_t byte = 0;
    bool match = false;
    for( size_t byte = 0; byte <= maxTextPos && !match; ++byte )
        for( size_t bit = 0; bit < CHAR_BIT && ( byte < maxTextPos || ( byte == maxTextPos && bit < 1 ) ); ++bit )
            //Compare first byte of pattern
            if( ( shiftedPatterns[ bit ][ 0 ] & compareMasks[ bit ].first ) != ( text[ byte ] & compareMasks[ bit ].first ) )

            size_t foo = sizeof( pattern );
            //Compare all middle bytes of pattern
            bool matchInProgress = true;
            for( size_t pos = 1; pos < sizeof( pattern ) && matchInProgress; ++pos )
                matchInProgress = shiftedPatterns[ bit ][ pos ] == text[ byte + pos ];
            if( !matchInProgress )

            if( bit != 0 )  //If compare failed or we're comparing the unshifted pattern, there's no need to compare final pattern buffer byte
                if( ( shiftedPatterns[ bit ][ sizeof( pattern ) ] & compareMasks[ bit ].second ) != ( text[ byte + sizeof( pattern ) ] & compareMasks[ bit ].second ) )

            //We found a match!
            match = true;   //Abandon search
            std::cout << "Match found!  Pattern begins at byte index " << byte << ", bit position " << CHAR_BIT - bit - 1 << ".\n";
    //If no match
    if( !match )
        std::cout << "No match found.\n";

    std::cout << "\nPress a key to exit...";

    return 0;


答案 2 :(得分:0)


如果序列非常相似,那么您需要更复杂的算法。想象一下,例如100万比特都是10101010101010 ......除了中间的某个地方a 1被翻转为零,例如...... 101000101 ...而且你正在寻找以“... 101000”结尾的10k位序列,然后字节移位比较算法会做得很差,因为它们必须比较大量的字节--8次 - 才能失败匹配了五十万次。


