Question

我一直在玩一个使用C ++ 11和一些标准算法的简单示例，我不确定是使用std::accumulate还是std::for_each。问题是计算一个单词中的字母，例如，对于“abracadabra”的输入，你得到

'a' => 5
'b' => 2
'c' => 1
'd' => 1
'r' => 2

我的第一次尝试是使用std::accumulate。这看起来很自然的原因是我们真正积累了一个值（一组频率）。我最近也在做一些函数式编程，accumulate似乎是folding列表的自然翻译。

vector<int> charsInWord(const string& text)
{
    return 
        std::accumulate(text.begin(), text.end(), vector<int>(256),
            [] (const vector<int>&v, char c)
            { 
                vector<int> v2(v);
                v2[c]++;
                return v2;
            } );
}

然而，这个解决方案看起来相当麻烦，需要一段时间才能做好。而且，即使使用新的move语义，我也无法让自己相信不会有任何不必要的复制。

所以我改为for_each。

vector<int> charsInWord2(const string& text)
{
    vector<int> charCounts(256);
    std::for_each(text.begin(), text.end(),
        [&] (char c)
        {
            charCounts[c]++;
        } );
    return charCounts;
}

这可能更容易编写和理解，我当然对它的效率感到高兴（虽然我错过了accumulate的声明性，功能性风格。

在这样的例子中，有没有什么理由比较喜欢一个？从目前为止的评论和答案来看，似乎我积累的价值是非平凡的，比如stl容器而不是int，我应该总是更喜欢for_each，甚至当我真正“积累”时。

为了完整起见，要编译和测试的其余代码在

之下

#include <string>
#include <vector>
#include <numeric> // accumulate
#include <algorithm> // for_each 

using std::string;
using std::vector;

#include <iostream>

// ... insert code above ...

int main(int argc, char* argv[])
{
    const vector<int> charCounts = charsInWord("abracadabra");
    for(size_t c=0; c<charCounts.size(); ++c) {
        const int count = charCounts[c];
        if (count > 0) {
            std::cout << "'" << static_cast<char>(c) << "'" << " => " << count << "\n";
        }
    }
    return 0;
}

Answer 1

就我个人而言，我不会写出这样的累积：

vector<int> charsInWord(const string& text)
{
    std::vector<int> result(256); // One version never copied.

    int count = std::accumulate(text.begin(), text.end(), 0,
            [&result] (int count, char c)
         // ^^^^^^^^^ capture
            { 
                result[c]++;
                return count+1;
            } );
    // Might use count in the log file.
    return result;
}

但如果我这样做，使用for_each（）

似乎同样容易

vector<int> charsInWord2(const string& text)
{
    vector<int> result(256);
    std::for_each(text.begin(), text.end(),
        [&result] (char c)
        {
            result[c]++;
        } );
    return result;
}

我认为for_each版本没有任何问题。

但为什么不选择简单的for()循环？

vector<int> charsInWord2(const string& text)
{
    vector<int> result(256);
    for(char c : text) {result[c]++;}
    return result;
}

有一些关于在评论中使用std :: map的讨论（然后在一些已删除的问题中）。只是为了捕捉它并扩展。

我们本可以使用std::map<char,int>代替vector<int>。不同之处是：

From: @Dave std :: map具有O（ln（n））查找时间，而向量为O（1）。所以有一个性能考虑因素。另请注意，地图的固定成本将高于矢量。虽然这很小但值得注意。

From: @Dave std :: vector的固定大小约为256 * 4（1024），而map的大小约为12 *个唯一字符数（最小12个最大值3072）。所以在现代机器中没有真正的空间考虑。但可能值得在手机等上进行优化。

From: @POW第三点是std :: map使得打印结果变得更加容易，因为你不需要检查空值。

矢量打印

for(size_t c=0; c<charCounts.size(); ++c) {
    if (count > 0) {
        std::cout << "'" << static_cast<char>(c) << "' => " << charCounts[c] << "\n";
    }
}

地图打印

for(auto loop: charCounts) {
    std::cout << "'" << loop.first << "' => " << loop.second << "\n";
}

使用for_each或accumulate来计算频率

1 个答案: