二进制数的正则表达式可被3整除

时间:2013-03-11 01:50:48

标签: regex dfa

我正在自学正则表达式,并在网上发现了一个有趣的练习题,包括编写一个正则表达式来识别所有可被3整除的二进制数(只有这样的数字)。说实话,问题是要为这样的场景构建DFA,但我认为使用正则表达式应该是等效的。

我知道有一条小规则可以确定二进制数是否可以被3整除:取数字中偶数位数的数字,然后减去数字中奇数位数的数字 - 如果这等于零,该数字可被3整除(例如:偶数2个时隙中的110-1和奇数1个时隙中的1)。但是,我在修改正则表达式方面遇到了一些麻烦。

我最接近的是意识到数字可以是0,所以这将是第一个状态。我还看到所有可被3整除的二进制数从1开始,所以这将是第二个状态,但我从那里被卡住了。有人可以帮忙吗?

4 个答案:

答案 0 :(得分:9)

遵循Oli Charlesworth所说的,你可以通过某个除数b来建立基础d数的可分性DFA,其中DFA中的状态代表除法的其余部分。

对于你的情况(基数2 - 二进制数,除数d = 3 10 ):

Initial DFA

请注意,上面的DFA接受空字符串作为可被3整除的“数字”。可以通过在前面再添加一个中间状态来轻松修复:

Fixed DFA

可以使用normal process转换为理论正则表达式。

当您获得DFA时,可以轻松地转换为支持递归正则表达式的实用正则表达式。这是针对CodeGolf.SE this question中{base b = 10,d = 7 10 )的情况而显示的。

让我引用用Ruby正则表达式编写的the regex in the answer by Lowjacker

(?!$)(?>(|(?<B>4\g<A>|5\g<B>|6\g<C>|[07]\g<D>|[18]\g<E>|[29]\g<F>|3\g<G>))(|(?<C>[18]\g<A>|[29]\g<B>|3\g<C>|4\g<D>|5\g<E>|6\g<F>|[07]\g<G>))(|(?<D>5\g<A>|6\g<B>|[07]\g<C>|[18]\g<D>|[29]\g<E>|3\g<F>|4\g<G>))(|(?<E>[29]\g<A>|3\g<B>|4\g<C>|5\g<D>|6\g<E>|[07]\g<F>|[18]\g<G>))(|(?<F>6\g<A>|[07]\g<B>|[18]\g<C>|[29]\g<D>|3\g<E>|4\g<F>|5\g<G>))(|(?<G>3\g<A>|4\g<B>|5\g<C>|6\g<D>|[07]\g<E>|[18]\g<F>|[29]\g<G>)))(?<A>$|[07]\g<A>|[18]\g<B>|[29]\g<C>|3\g<D>|4\g<E>|5\g<F>|6\g<G>)

打破它,你可以看到它是如何构建的。 原子分组(或非回溯组或行为占有的组)用于确保仅匹配空字符串替代。这是在Perl中模拟(?DEFINE)的技巧。然后,当数字除以7时,组AG对应于0到6的余数。

(?!$)
(?>
  (|(?<B>4   \g<A>|5   \g<B>|6   \g<C>|[07]\g<D>|[18]\g<E>|[29]\g<F>|3   \g<G>))
  (|(?<C>[18]\g<A>|[29]\g<B>|3   \g<C>|4   \g<D>|5   \g<E>|6   \g<F>|[07]\g<G>))
  (|(?<D>5   \g<A>|6   \g<B>|[07]\g<C>|[18]\g<D>|[29]\g<E>|3   \g<F>|4   \g<G>))
  (|(?<E>[29]\g<A>|3   \g<B>|4   \g<C>|5   \g<D>|6   \g<E>|[07]\g<F>|[18]\g<G>))
  (|(?<F>6   \g<A>|[07]\g<B>|[18]\g<C>|[29]\g<D>|3   \g<E>|4   \g<F>|5   \g<G>))
  (|(?<G>3   \g<A>|4   \g<B>|5   \g<C>|6   \g<D>|[07]\g<E>|[18]\g<F>|[29]\g<G>))
)
(?<A>$|  [07]\g<A>|[18]\g<B>|[29]\g<C>|3   \g<D>|4   \g<E>|5   \g<F>|6   \g<G>)

答案 1 :(得分:4)

我有另一种解决这个问题的方法,我认为这更容易理解。 当我们将数字除以3时,我们可以有三个余数:0,1,2。 我们可以使用表达式3t描述一个可被3整除的数字(t是自然数)。

当我们在余数为0的二进制数后加0时,实际的十进制数将加倍。因为每个数字都移动到更高的位置。 3t * 2 = 6t,这也可以被3整除。

当我们在余数为0的二进制数后加1时,实际的十进制数将加倍加1.因为每个数字移动到更高的位置后跟1; 3t * 2 + 1,余数为1。

当我们在余数为1的二进制数后加1时。实际的十进制数将加倍加1,余数为0; (3t + 1)* 2 + 1 = 6t + 3这可以被3整除。

当我们在余数为1的二进制数后加0时。实际的十进制数将加倍。其余的将是2 (3t + 1)* 2 = 6t + 2.

当我们在余数为2的二进制数后加0时。余数为1。 (3t + 2)* 2 = 3t + 4 = 3(2t + 1)+ 1

当我们在余数为2的二进制数后加1时。余数仍为2。 (3t + 2)* 2 + 1 = t + 5 = 3(2t + 1)+ 2。 无论你添加多少1个余数为2的二进制数,余数将永远为2。 (3(t + 1)+ 2)* 2 + 1 = 3(t + 2)+ 5 = 3(t + 3)+ 2

所以我们可以用DFA来描述二进制数: DFA describing binary numbers divisible by 3

答案 2 :(得分:1)

您遇到的问题是,虽然您的技巧(可能)有效,但它不会映射到实际的DFA(您必须跟踪偶数和奇数之间的潜在任意差异,这将需要任意数量的州。)

另一种方法是注意(在i个字符x[i]之后(从MSB到LSB),你的子字符串必须等于0,1或2模数 - 3算术;调用此值S[i]x[i+1]必须为0或1,相当于乘以2并可选择加1。

因此,如果您知道S[i]x[i+1],则可以计算S[i+1]。这种描述听起来很熟悉吗?

答案 3 :(得分:0)

可被3整除的二进制数分为3类:

  1. 两个连续1或2的数字,由偶数个0分隔。实际上,每一对&#34;取消&#34;本身。
  2. (例如,11,110,1100,1001,10010,1111)

    (十进制:3,6,12,9,18,15)

    1. 具有三个1的数字,每个数字由奇数个0分隔。这些三胞胎也&#34;取消&#34;他们自己出去了。
    2. (例如10101,101010,1010001,1000101)

      (十进制:21,42,81,69)

      1. 前两条规则的某种组合(包括彼此内部)
      2. (例如1010111,1110101,1011100110001)

        (十进制:87,117,5937)

        因此,考虑到这三个规则的正则表达式就是:

        0 *(1(00)* 10 * | 10(00)* 1(00)*(11)* 0(00)* 10 *)* 0 *

        如何阅读:

        ()封装

        *表示前一个号码/组是可选的

        |表示括号内任一侧的选项选择