执行“最后[秒/分钟/小时]”数据结构的命中

时间:2013-08-21 17:57:17

标签: c++ algorithm data-structures

我认为这是一个相当常见的问题,但我似乎无法通过谷歌搜索找到答案(也许有一个更准确的名称,我不知道的问题?)

您需要使用“hit()”方法实现一个结构,该方法用于报告命中和hitsInLastSecond | Minute | Hour方法。你有一个具有纳秒准确度的计时器。你如何有效地实现这一点?

我的想法是这样的(在psuedo-C ++中)

class HitCounter {
  void hit() {
    hits_at[now()] = ++last_count;
  }

  int hitsInLastSecond() {
    auto before_count = hits_at.lower_bound(now() - 1 * second)
    if (before_count == hits_at.end()) { return last_count; }
    return last_count - before_count->second;
  }

  // etc for Minute, Hour

  map<time_point, int> hits_at;
  int last_count = 0;
};

这有用吗?好吗?有更好的东西吗?

更新:添加修剪并根据评论切换到双端队列:

class HitCounter {
  void hit() {
    hits.push_back(make_pair(now(), ++last_count));
  }

  int hitsInLastSecond() {
    auto before = lower_bound(hits.begin(), hits.end(), make_pair(now() - 1 * second, -1));
    if (before == hits.end()) { return last_count; }
    return last_count - before_count->second;
  }

  // etc for Minute, Hour

  void prune() {
    auto old = upper_bound(hits.begin(). hits.end(), make_pair(now - 1 * hour, -1));
    if (old != hits.end()) {
      hits.erase(hits.begin(), old)
    }
  }

  deqeue<pair<time_point, int>> hits;
  int last_count = 0;
};

1 个答案:

答案 0 :(得分:2)

您所描述的内容称为直方图。

使用哈希,如果你想要纳秒级的精确度,会占用你的大部分cpu。您可能需要一个环形缓冲区来存储数据。

使用std :: chrono来达到你需要的计时精度,但坦率地说,每秒点击量似乎是你需要的最高粒度,如果你正在看整体的大局,看起来似乎并不重要精度是。

这是一个部分的,介绍性的样本,说明如何进行:

#include <array>
#include <algorithm>

template<size_t RingSize>
class Histogram
{
    std::array<size_t, RingSize> m_ringBuffer;
    size_t m_total;
    size_t m_position;
public:
    Histogram() : m_total(0)
    {
        std::fill_n(m_ringBuffer.begin(), RingSize, 0);
    }

    void addHit()
    {
        ++m_ringBuffer[m_position];
        ++m_total;
    }

    void incrementPosition()
    {
        if (++m_position >= RingSize)
            m_position = 0;
        m_total -= m_ringBuffer[m_position];
        m_ringBuffer[m_position] = 0;
    }

    double runningAverage() const
    {
        return (double)m_total / (double)RingSize;
    }

    size_t runningTotal() const { return m_total; }
};

Histogram<60> secondsHisto;
Histogram<60> minutesHisto;
Histogram<24> hoursHisto;
Histogram<7> weeksHisto;

这是一个天真的实现,假设你会每秒调用它并增加位置,并将runningTotal从一个直方图转换到下一个每个RingSize(所以每60秒,将secondsHisto.runningTotal添加到minutesHisto)。

希望这将是一个有用的介绍性起点。

如果你想跟踪更长的每秒点击直方图,你可以用这个模型做到这一点,通过增加环大小,添加第二个总数来跟踪最后N个环形缓冲区条目,这样m_subTotal = sum(m_ringBuffer) [m_position - N .. m_position]),类似于m_total的工作方式。

size_t m_10sTotal;

...

void addHit()
{
    ++m_ringBuffer[m_position];
    ++m_total;
    ++m_10sTotal;
}

void incrementPosition()
{
    // subtract data from >10 sample intervals ago.
    m_10sTotal -= m_ringBuffer[(m_position + RingBufferSize - 10) % RingBufferSize];
    // for the naive total, do the subtraction after we
    // advance position, since it will coincide with the
    // location of the value RingBufferSize ago.
    if (++m_position >= RingBufferSize)
        m_position = 0;
    m_total -= m_ringBuffer[m_position];
}

你不需要制作这些尺寸的组织,这只是一个天真的刮刮模型。有各种替代方案,例如同时递增每个直方图:

secondsHisto.addHit();
minutesHisto.addHit();
hoursHisto.addHit();
weeksHisto.addHit();

每个都独立翻转,因此所有都有当前值。根据您希望的粒度数据返回每个组织的大小。