Question

我注意到我的计算机上有一个奇怪的事情。^*手写除数测试比%运算符快得多。考虑最小的示例：

^{* _{AMD锐龙Threadripper 2990WX，GCC 9.2.0}}

static int divisible_ui_p(unsigned int m, unsigned int a)
{
    if (m <= a) {
        if (m == a) {
            return 1;
        }

        return 0;
    }

    m += a;

    m >>= __builtin_ctz(m);

    return divisible_ui_p(m, a);
}

该示例受奇数a和m > 0的限制。但是，可以很容易地将其推广到所有a和m。该代码只是将除法转换为一系列的加法运算。

现在考虑使用-std=c99 -march=native -O3编译的测试程序：

    for (unsigned int a = 1; a < 100000; a += 2) {
        for (unsigned int m = 1; m < 100000; m += 1) {
#if 1
            volatile int r = divisible_ui_p(m, a);
#else
            volatile int r = (m % a == 0);
#endif
        }
    }

...以及我的计算机上的结果：

| implementation     | time [secs] |
|--------------------|-------------|
| divisible_ui_p     |    8.52user |
| builtin % operator |   17.61user |

因此快两倍以上。

问题：您能告诉我代码在您的计算机上如何运行吗？是否错过了GCC中的优化机会？您可以更快地执行此测试吗？

更新：根据要求，这是一个最小的可复制示例：

#include <assert.h>

static int divisible_ui_p(unsigned int m, unsigned int a)
{
    if (m <= a) {
        if (m == a) {
            return 1;
        }

        return 0;
    }

    m += a;

    m >>= __builtin_ctz(m);

    return divisible_ui_p(m, a);
}

int main()
{
    for (unsigned int a = 1; a < 100000; a += 2) {
        for (unsigned int m = 1; m < 100000; m += 1) {
            assert(divisible_ui_p(m, a) == (m % a == 0));
#if 1
            volatile int r = divisible_ui_p(m, a);
#else
            volatile int r = (m % a == 0);
#endif
        }
    }

    return 0;
}

在gcc -std=c99 -march=native -O3 -DNDEBUG上与AMD Ryzen Threadripper 2990WX一起编译，

gcc --version
gcc (Gentoo 9.2.0-r2 p3) 9.2.0

UPDATE2 ：根据要求，可以处理任何a和m的版本（如果您还想避免整数溢出，则必须使用整数实现测试输入两倍于输入整数的长度）：

int divisible_ui_p(unsigned int m, unsigned int a)
{
#if 1
    /* handles even a */
    int alpha = __builtin_ctz(a);

    if (alpha) {
        if (__builtin_ctz(m) < alpha) {
            return 0;
        }

        a >>= alpha;
    }
#endif

    while (m > a) {
        m += a;
        m >>= __builtin_ctz(m);
    }

    if (m == a) {
        return 1;
    }

#if 1
    /* ensures that 0 is divisible by anything */
    if (m == 0) {
        return 1;
    }
#endif

    return 0;
}

Answer 1

您正在做的事情叫做强度降低：用一系列廉价的操作代替昂贵的操作。

在许多CPU上使用mod指令的速度很慢，因为从历史上来看，它没有在几个通用基准中进行过测试，因此设计人员优化了其他指令。如果必须执行多次迭代，该算法的性能就会变差，并且%在只需要两个时钟周期的CPU上性能会更好。

最后，请注意，有许多捷径可以将其余的除以特定常量。（尽管编译器通常会为您解决这个问题。）

Answer 2

我会自己回答我的问题。看来我成了分支预测的受害者。操作数的相互大小似乎并不重要，仅取决于它们的顺序。

考虑以下实现

int divisible_ui_p(unsigned int m, unsigned int a)
{
    while (m > a) {
        m += a;
        m >>= __builtin_ctz(m);
    }

    if (m == a) {
        return 1;
    }

    return 0;
}

和数组

unsigned int A[100000/2];
unsigned int M[100000-1];

for (unsigned int a = 1; a < 100000; a += 2) {
    A[a/2] = a;
}
for (unsigned int m = 1; m < 100000; m += 1) {
    M[m-1] = m;
}

使用/ shuffle函数未洗牌的

。

没有改组，结果仍然是

| implementation     | time [secs] |
|--------------------|-------------|
| divisible_ui_p     |    8.56user |
| builtin % operator |   17.59user |

但是，一旦我将这些数组改组，结果就会不同

| implementation     | time [secs] |
|--------------------|-------------|
| divisible_ui_p     |   31.34user |
| builtin % operator |   17.53user |

可比性测试比％运算符更快？

2 个答案: