使用g ++ 4.8.2,tan()计算比sin()/ cos()计算长两倍

时间:2015-01-06 12:53:46

标签: c++ c++11 g++4.8

我正在使用大量数学函数处理算法,最近我们在Ubuntu系统上从Solaris平台上将代码移植到g ++ 4.8.2下。

令人惊讶的是,有些算法比以前花了很多时间。背后的原因是std::tan()函数比执行std::sin()/std::cos()的函数长两倍。

通过sin / cos替换tan,大大减少了相同结果的计算时间。我想知道为什么会有这样的差异。是因为标准库的实现?褐色功能不应该更有效吗?

我写了一个程序来检查函数的时间:

#include <cmath>
#include <iostream>
#include <chrono>

int main(int argc, char * argv[])
{
    using namespace std::chrono;

    auto start_tan = system_clock::now();

    for (int i = 0; i < 50000; ++i)
    {
        const double & a = static_cast<double>(i);
        const double & b = std::tan(a);
    }

    auto end_tan = system_clock::now();
    auto elapsed_time_tan = end_tan - start_tan;
    std::cout << "tan : ";
    std::cout << elapsed_time_tan.count() << std::endl;

    auto start_sincos = system_clock::now();

    for (int i =  0; i < 50000; ++i)
    {
        const double & a = static_cast<double>(i);
        const double & b = std::sin(a) / std::cos(a);
    }

    auto end_sincos = system_clock::now();
    auto elapsed_time_sincos = end_sincos - start_sincos;
    std::cout << "sincos : " << elapsed_time_sincos.count() << std::endl;

}

事实上,在输出中,我有以下时间没有优化:

tan : 8319960
sincos : 4736988

并通过优化(-O2):

tan : 294
sincos : 120

如果有人对此行为有任何了解。

修改

我根据@Basile Starynkevitch回复修改了程序:

#include <cmath>
#include <iostream>
#include <chrono>

int main(int argc, char * argv[])
{
    using namespace std::chrono;

   if (argc != 2) 
   {
      std::cout << "Need one and only argument : the number of iteration." << std::endl;
      return 1;
   }

   int nb_iter = std::atoi(argv[1]);
   std::cout << "Number of iteration programmed : " << nb_iter << std::endl;


   double tan_sum = 0.0;
   auto start_tan = system_clock::now();
    for (int i = 0; i < nb_iter; ++i)
    {
        const double & a = static_cast<double>(i);
        const double b = std::tan(a);
      tan_sum += b;
    }

    auto end_tan = system_clock::now();
    auto elapsed_time_tan = end_tan - start_tan;
    std::cout << "tan : " << elapsed_time_tan.count() << std::endl;
   std::cout << "tan sum : " << tan_sum << std::endl;

   double sincos_sum = 0.0;
    auto start_sincos = system_clock::now();
    for (int i =  0; i < nb_iter; ++i)
    {
        const double & a = static_cast<double>(i);
        const double b = std::sin(a) / std::cos(a);
      sincos_sum += b;
    }

    auto end_sincos = system_clock::now();
    auto elapsed_time_sincos = end_sincos - start_sincos;
    std::cout << "sincos : " << elapsed_time_sincos.count() << std::endl;
   std::cout << "sincos sum : " << sincos_sum << std::endl;

}

现在结果我只获得-O2的相似时间:

tan : 8345021
sincos : 7838740

但仍与-O2 -mtune=native不同,但确实更快:

tan : 5426201
sincos : 3721938

我赢了用户-ffast-math,因为我需要保持IEEE合规性。

2 个答案:

答案 0 :(得分:8)

您不应该关心非优化代码。

关于优化,GCC编译器可能会丢弃循环,因为您不对结果执行任何操作。 BTW b不应该是const double&引用,而是const double

如果您想要有意义的基准测试,请尝试存储b(或对其进行求和)。并使迭代次数(50000)成为运行时参数(例如int nbiter = (argc>1)?atoi(argv[1]):1000;

您可能希望将-O2 -ffast-math -mtune=native作为优化标记传递给g++(请注意-ffast-math在优化细节中不符合标准)

使用我的更改标记a:

double sumtan=0.0, sumsincos=0.0;
int nbiter = argc>1?atoi(argv[1]):10000;

for (int i = 0; i < nbiter; ++i)
{
    const double & a = static_cast<double>(i);
    const double  b = std::tan(a);
    sumtan += b;
}

for (int i =  0; i < nbiter; ++i)
{
    const double & a = static_cast<double>(i);
    const double  b = std::sin(a) / std::cos(a);
    sumsincos += b;
}

std::cout << "tan : "  << elapsed_time_tan.count() 
          << " sumtan=" << sumtan << std::endl;

std::cout << "sincos : " << elapsed_time_sincos.count() 
          << " sumsincos=" << sumsincos << std::endl;

使用

编译GCC 4.9.2
 g++ -std=c++11 -O2 -Wall -ffast-math -mtune=native b.cc -o b.bin

我的时间非常相似:

  % ./b.bin 1000000
  tan : 77158579 sumtan=-3.42432e+06
  sincos : 70219657 sumsincos=-3.42432e+06

这是一款4年前的台式机(英特尔(R)Xeon(R)CPU X3430 @ 2.40GHz)

如果使用clang++ 3.5.0进行编译

tan : 78098229 sumtan=-3.42432e+06
sincos : 106817614 sumsincos=-3.42432e+06

PS。时间(和相对性能)与-O3不同。并且某些处理器具有sincostan的机器指令,但它们可能未被使用(因为编译器或libm知道它们比例程慢)。 GCC对此有builtins

答案 1 :(得分:2)

阅读英特尔开发人员手册。 trig函数不像x86上的其他数学函数那样准确,因此sin / cos不会给出与tan相同的结果,如果符合IEEE标准是你理由的话,那么你应该记住这一点。

至于加速,sin和cos可以从同一条指令中获得,只要编译器没有脑死亡。将tan计算到相同的精度是更多的工作。因此编译器不能在不违反标准的情况下替换sin / cos。

根据这些最后的小数位是否对您很重要,您可能需要查看此内容 What is the error of trigonometric instructions on x86?