使用Boost计算C ++中样本矢量的均值和标准差

时间:2011-09-30 21:59:41

标签: c++ algorithm boost statistics mean

有没有办法使用Boost计算包含样本的矢量的平均值和标准差?

或者我是否必须创建累加器并将矢量输入其中?

10 个答案:

答案 0 :(得分:194)

我不知道Boost是否具有更多特定功能,但您可以使用标准库。

鉴于std::vector<double> v,这是天真的方式:

#include <numeric>

double sum = std::accumulate(v.begin(), v.end(), 0.0);
double mean = sum / v.size();

double sq_sum = std::inner_product(v.begin(), v.end(), v.begin(), 0.0);
double stdev = std::sqrt(sq_sum / v.size() - mean * mean);

对于巨大或微小的值,这容易上溢或下溢。计算标准偏差的更好方法是:

double sum = std::accumulate(v.begin(), v.end(), 0.0);
double mean = sum / v.size();

std::vector<double> diff(v.size());
std::transform(v.begin(), v.end(), diff.begin(),
               std::bind2nd(std::minus<double>(), mean));
double sq_sum = std::inner_product(diff.begin(), diff.end(), diff.begin(), 0.0);
double stdev = std::sqrt(sq_sum / v.size());
C ++ 11的

更新

可以使用lambda函数而不是std::transformstd::minus(现已弃用)来编写对std::bind2nd的调用:

std::transform(v.begin(), v.end(), diff.begin(), [mean](double x) { return x - mean; });

答案 1 :(得分:59)

如果性能对您很重要,并且您的编译器支持lambdas,则可以更快更简单地进行stdev计算:在使用VS 2012的测试中,我发现以下代码比在下面给出的Boost代码快10倍以上选择的答案;使用musiphil提供的标准库,它比安全版本的答案快5倍。

注意我正在使用样本标准差,因此下面的代码会给出略有不同的结果(Why there is a Minus One in Standard Deviations

double sum = std::accumulate(std::begin(v), std::end(v), 0.0);
double m =  sum / v.size();

double accum = 0.0;
std::for_each (std::begin(v), std::end(v), [&](const double d) {
    accum += (d - m) * (d - m);
});

double stdev = sqrt(accum / (v.size()-1));

答案 2 :(得分:47)

使用累加器计算Boost中的均值和标准差的方法。

accumulator_set<double, stats<tag::variance> > acc;
for_each(a_vec.begin(), a_vec.end(), bind<void>(ref(acc), _1));

cout << mean(acc) << endl;
cout << sqrt(variance(acc)) << endl;

答案 3 :(得分:2)

the answer by musiphil上进行了改进,您只需编写一个具有C ++ 11 lambda功能的diff调用,就可以编写没有临时向量inner_product的标准差函数:

double stddev(std::vector<double> const & func)
{
    double mean = std::accumulate(func.begin(), func.end(), 0.0) / func.size();
    double sq_sum = std::inner_product(func.begin(), func.end(), func.begin(), 0.0,
        [](double const & x, double const & y) { return x + y; },
        [mean](double const & x, double const & y) { return (x - mean)*(y - mean); });
    return sq_sum / ( func.size() - 1 );
}

我怀疑多次进行减法比用完额外的中间存储要便宜,而且我认为它更易读,但是我尚未测试性能。

答案 4 :(得分:1)

我的答案与Josh Greifer相似,但是归纳为样本协方差。样本方差只是样本协方差,但两个输入相同。这包括贝塞尔的相关性。

    template <class Iter> typename Iter::value_type cov(const Iter &x, const Iter &y)
    {
        double sum_x = std::accumulate(std::begin(x), std::end(x), 0.0);
        double sum_y = std::accumulate(std::begin(y), std::end(y), 0.0);

        double mx =  sum_x / x.size();
        double my =  sum_y / y.size();

        double accum = 0.0;

        for (auto i = 0; i < x.size(); i++)
        {
            accum += (x.at(i) - mx) * (y.at(i) - my);
        }

        return accum / (x.size() - 1);
    }

答案 5 :(得分:1)

比前面提到的版本快2倍 - 主要是因为transform()和inner_product()循环被连接起来。 抱歉我的快捷方式/ typedefs / macro:Flo = float。 CR const ref。 VFlo-矢量。在VS2010中测试

#define fe(EL, CONTAINER)   for each (auto EL in CONTAINER)  //VS2010
Flo stdDev(VFlo CR crVec) {
    SZ  n = crVec.size();               if (n < 2) return 0.0f;
    Flo fSqSum = 0.0f, fSum = 0.0f;
    fe(f, crVec) fSqSum += f * f;       // EDIT: was Cit(VFlo, crVec) {
    fe(f, crVec) fSum   += f;
    Flo fSumSq      = fSum * fSum;
    Flo fSumSqDivN  = fSumSq / n;
    Flo fSubSqSum   = fSqSum - fSumSqDivN;
    Flo fPreSqrt    = fSubSqSum / (n - 1);
    return sqrt(fPreSqrt);
}

答案 6 :(得分:0)

尽管已经存在了很长时间,但似乎没有提到以下优雅的递归解决方案。提到Knuth的计算机编程艺术,

mean_1 = x_1, variance_1 = 0;            //initial conditions; edge case;

//for k >= 2, 
mean_k     = mean_k-1 + (x_k - mean_k-1) / k;
variance_k = variance_k-1 + (x_k - mean_k-1) * (x_k - mean_k);

然后对于n>=2值列表,标准偏差的估计为:

std = variance_n / (n-1). 

希望这会有所帮助!

答案 7 :(得分:0)

为了以更好的精度计算样本均值,可以使用以下 r 步递归:

mean_k=1/k*[(k-r)*mean_(k-r) + sum_over_i_from_(n-r+1)_to_n(x_i)],

其中选择 r 以使求和组件彼此更接近。

答案 8 :(得分:-3)

创建自己的容器:

template <class T>
class statList : public std::list<T>
{
    public:
        statList() : std::list<T>::list() {}
        ~statList() {}
        T mean() {
           return accumulate(begin(),end(),0.0)/size();
        }
        T stddev() {
           T diff_sum = 0;
           T m = mean();
           for(iterator it= begin(); it != end(); ++it)
               diff_sum += ((*it - m)*(*it -m));
           return diff_sum/size();
        }
};

它确实有一些限制,但是当你知道自己在做什么时,它会很有效。

答案 9 :(得分:-7)

//表示c ++中的偏差

/ 作为观察值与感兴趣量的真实值(例如总体均值)之间的差异的偏差是误差,偏差是观测值与估计值之间的差值真值(这种估计可能是样本均值)是一个残差。这些概念适用于间隔和比率测量级别的数据。 /

#include <iostream>
#include <conio.h>
using namespace std;

/* run this program using the console pauser or add your own getch,     system("pause") or input loop */

int main(int argc, char** argv)
{
int i,cnt;
cout<<"please inter count:\t";
cin>>cnt;
float *num=new float [cnt];
float   *s=new float [cnt];
float sum=0,ave,M,M_D;

for(i=0;i<cnt;i++)
{
    cin>>num[i];
    sum+=num[i];    
}
ave=sum/cnt;
for(i=0;i<cnt;i++)
{
s[i]=ave-num[i];    
if(s[i]<0)
{
s[i]=s[i]*(-1); 
}
cout<<"\n|ave - number| = "<<s[i];  
M+=s[i];    
}
M_D=M/cnt;
cout<<"\n\n Average:             "<<ave;
cout<<"\n M.D(Mean Deviation): "<<M_D;
getch();
return 0;

}