使用IObservable进行批处理

时间:2013-11-15 08:00:10

标签: c# .net-4.0 system.reactive

我的服务器端向我发送批量消息。批处理和频率中的消息是任意的。有时我会以1分钟的间隔收到消息,有时候不会收到一小时的消息。有时是1条消息,有时是10.我当前的实现使用Observable.Buffer(TimeSpan.FromSeconds(5))对消息进行分组并发送给用户。

如果两条消息之间有x秒的延迟,那么有没有办法配置Observable,以便将缓冲的消息发送给用户。

我所处的位置是避免每5秒钟不必要的计时器滴答声。打开其他建议以优化批处理。

3 个答案:

答案 0 :(得分:9)

使用bufferClosingSelector工厂方法

decPL建议使用Buffer的重载接受bufferClosingSelector - 在新缓冲区打开时调用的工厂函数。它产生一个流,其第一个OnNext()OnCompleted()信号刷新当前缓冲区。 decPLs代码看起来像这样:

observable.Buffer(() => observable.Throttle(TimeSpan.FromSeconds(5)))

这在解决方案方面取得了相当大的进展,但它存在一些问题:

  • 服务器不会在活动期间发送消息,其中消息在节流持续时间内一致地发布。这可能导致大量的,不经常发布的列表。
  • 源有多个订阅;如果感冒,可能会产生意想不到的副作用。在{em>每个缓冲区关闭后调用bufferClosingSelector工厂,因此如果源是冷的,它将从初始事件而不是最新事件中进行限制。

防止无限期限制

我们需要使用额外的机制来限制缓冲区长度并防止无限制的限制。 Buffer有一个重载,允许您指定最大长度,但遗憾的是,您无法将其与结束选择器结合使用。

让我们调用所需的缓冲区长度限制 n 。回想一下结束选择器的第一个OnNext就足以关闭缓冲区了,所以我们需要做的只是Merge一个计数流,在 OnNext来自源的> n 事件。我们可以使用.Take(n).LastAsync()来执行此操作;采取第一个 n 事件,但忽略除最后一个之外的所有事件。这是Rx中非常有用的模式。

使源“热”

为了解决bufferClosingSelector工厂重新订阅源代码的问题,我们需要在源代码上使用.Publish().RefCount()的通用模式为我们提供仅发送最新内容的流订阅者的活动。这也是一个非常有用的模式。

解决方案

这是重新设计的代码,其中节流持续时间与计数器合并:

var throttleDuration = TimeSpan.FromSeconds(5);
var bufferSize = 3;

// single subscription to source
var sourcePub = source.Publish().RefCount();

var output = sourcePub.Buffer(
    () => sourcePub.Throttle(throttleDuration) 
                   .Merge(sourcePub.Take(bufferSize).LastAsync()));

生产就绪代码&测试

这是一个带有测试的生产就绪实现(使用nuget软件包rx-testing& nunit)。请注意调度程序的参数化以支持测试。

public static partial class ObservableExtensions
{
    public static IObservable<IList<TSource>> BufferNearEvents<TSource>(
        this IObservable<TSource> source,
        TimeSpan maxInterval,
        int maxBufferSize,
        IScheduler scheduler)
    {
        if (scheduler == null) scheduler = ThreadPoolScheduler.Instance;
        if (maxBufferSize <= 0)
            throw new ArgumentOutOfRangeException(
                "maxBufferSize", "maxBufferSize must be positive");

        var publishedSource = source.Publish().RefCount();

        return publishedSource.Buffer(
            () => publishedSource
                .Throttle(maxInterval, scheduler)
                .Merge(publishedSource.Take(maxBufferSize).LastAsync()));
    }
}

public class BufferNearEventsTests : ReactiveTest
{
    [Test]
    public void CloseEventsAreBuffered()
    {
        TimeSpan maxInterval = TimeSpan.FromTicks(200);
        const int maxBufferSize = 1000;

        var scheduler = new TestScheduler();

        var source = scheduler.CreateColdObservable(
            OnNext(100, 1),
            OnNext(200, 2),
            OnNext(300, 3));

        IList<int> expectedBuffer = new [] {1, 2, 3};
        var expectedTime = maxInterval.Ticks + 300;

        var results = scheduler.CreateObserver<IList<int>>();

        source.BufferNearEvents(maxInterval, maxBufferSize, scheduler)
              .Subscribe(results);

        scheduler.AdvanceTo(1000);

        results.Messages.AssertEqual(
            OnNext<IList<int>>(expectedTime, buffer => CheckBuffer(expectedBuffer, buffer)));
    }

    [Test]
    public void FarEventsAreUnbuffered()
    {
        TimeSpan maxInterval = TimeSpan.FromTicks(200);
        const int maxBufferSize = 1000;

        var scheduler = new TestScheduler();

        var source = scheduler.CreateColdObservable(
            OnNext(1000, 1),
            OnNext(2000, 2),
            OnNext(3000, 3));

        IList<int>[] expectedBuffers =
        {
            new[] {1},
            new[] {2},
            new[] {3}
        };

        var expectedTimes = new[]
        {
            maxInterval.Ticks + 1000,
            maxInterval.Ticks + 2000,
            maxInterval.Ticks + 3000
        };  

        var results = scheduler.CreateObserver<IList<int>>();

        source.BufferNearEvents(maxInterval, maxBufferSize, scheduler)
              .Subscribe(results);

        scheduler.AdvanceTo(10000);

        results.Messages.AssertEqual(
            OnNext<IList<int>>(expectedTimes[0], buffer => CheckBuffer(expectedBuffers[0], buffer)),
            OnNext<IList<int>>(expectedTimes[1], buffer => CheckBuffer(expectedBuffers[1], buffer)),
            OnNext<IList<int>>(expectedTimes[2], buffer => CheckBuffer(expectedBuffers[2], buffer)));
    }

    [Test]
    public void UpToMaxEventsAreBuffered()
    {
        TimeSpan maxInterval = TimeSpan.FromTicks(200);
        const int maxBufferSize = 2;

        var scheduler = new TestScheduler();

        var source = scheduler.CreateColdObservable(
            OnNext(100, 1),
            OnNext(200, 2),
            OnNext(300, 3));

        IList<int>[] expectedBuffers =
        {
            new[] {1,2},
            new[] {3}
        };

        var expectedTimes = new[]
        {
            200, /* Buffer cap reached */
            maxInterval.Ticks + 300
        };

        var results = scheduler.CreateObserver<IList<int>>();

        source.BufferNearEvents(maxInterval, maxBufferSize, scheduler)
              .Subscribe(results);

        scheduler.AdvanceTo(10000);

        results.Messages.AssertEqual(
            OnNext<IList<int>>(expectedTimes[0], buffer => CheckBuffer(expectedBuffers[0], buffer)),
            OnNext<IList<int>>(expectedTimes[1], buffer => CheckBuffer(expectedBuffers[1], buffer)));
    }

    private static bool CheckBuffer<T>(IEnumerable<T> expected, IEnumerable<T> actual)
    {
        CollectionAssert.AreEquivalent(expected, actual);
        return true;
    }
}

答案 1 :(得分:3)

如果我正确理解了您的描述,Observable.Buffer仍然是您的朋友,只需使用导致可观察事件的重载来指示何时应发送缓冲项。如下:

observable.Buffer(() => observable.Throttle(TimeSpan.FromSeconds(5)))

答案 2 :(得分:1)

这是一个老问题,但似乎与my recent question有关。 Enigmativity找到了一个很好的方式去做我认为你想要达到的目标,所以我想我会分享。我用扩展方法包装了解决方案:

public static class ObservableExtensions
{
    public static IObservable<T[]> Batch<T>(this IObservable<T> observable, TimeSpan timespan)
    {
        return observable.GroupByUntil(x => 1, g => Observable.Timer(timespan))
                         .Select(x => x.ToArray())
                         .Switch();
    }
}

它可以像这样使用:

observableSource.Batch(TimeSpan.FromSeconds(5));