将IEnumerable <t>拆分为固定大小的块(返回IEnumerable <ienumerable <t>&gt;其中内部序列具有固定长度)</ienumerable <t> </t>

时间:2012-12-04 18:35:50

标签: c# linq ienumerable

我想采用IEnumerable<T>并将其拆分为固定大小的块。

我有这个,但由于所有列表创建/复制,它似乎不优雅:

private static IEnumerable<IEnumerable<T>> Partition<T>(this IEnumerable<T> items, int partitionSize)
{
    List<T> partition = new List<T>(partitionSize);
    foreach (T item in items)
    {
        partition.Add(item);
        if (partition.Count == partitionSize)
        {
            yield return partition;
            partition = new List<T>(partitionSize);
        }
    }
    // Cope with items.Count % partitionSize != 0
    if (partition.Count > 0) yield return partition;
}

是否有更惯用的东西?

编辑:虽然这已被标记为Divide array into an array of subsequence array的副本但不是 - 该问题涉及拆分数组,而这大约是IEnumerable<T>。此外,该问题要求填充最后一个子序列。这两个问题密切相关,但不尽相同。

8 个答案:

答案 0 :(得分:59)

您可以尝试自己实现上面提到的Batch方法:

    static class MyLinqExtensions 
    { 
        public static IEnumerable<IEnumerable<T>> Batch<T>( 
            this IEnumerable<T> source, int batchSize) 
        { 
            using (var enumerator = source.GetEnumerator()) 
                while (enumerator.MoveNext()) 
                    yield return YieldBatchElements(enumerator, batchSize - 1); 
        } 

        private static IEnumerable<T> YieldBatchElements<T>( 
            IEnumerator<T> source, int batchSize) 
        { 
            yield return source.Current; 
            for (int i = 0; i < batchSize && source.MoveNext(); i++) 
                yield return source.Current; 
        } 
    }

我从http://blogs.msdn.com/b/pfxteam/archive/2012/11/16/plinq-and-int32-maxvalue.aspx抓取了这段代码。

更新:请注意,此实现不仅会延迟评估批次,还会评估批次内的项目,这意味着只有在枚举所有以前的批次之后枚举批次时,它才会生成正确的结果。例如:

public static void Main(string[] args)
{
    var xs = Enumerable.Range(1, 20);
    Print(xs.Batch(5).Skip(1)); // should skip first batch with 5 elements
}

public static void Print<T>(IEnumerable<IEnumerable<T>> batches)
{
    foreach (var batch in batches)
    {
        Console.WriteLine($"[{string.Join(", ", batch)}]");
    }
}

将输出:

[2, 3, 4, 5, 6] //only first element is skipped.
[7, 8, 9, 10, 11]
[12, 13, 14, 15, 16]
[17, 18, 19, 20]

因此,如果您使用案例假设批处理顺序进行批处理,那么上面的延迟解决方案将起作用,否则如果您不能保证严格顺序批处理(例如,当您想并行处理批处理时),您可能会需要一个急切地列举批量内容的解决方案,类似于上面问题或MoreLINQ中提到的

答案 1 :(得分:13)

感觉你想要两个迭代器块(“yield return方法”)。我写了这个扩展方法:

static class Extensions
{
  public static IEnumerable<IEnumerable<T>> Partition<T>(this IEnumerable<T> items, int partitionSize)
  {
    return new PartitionHelper<T>(items, partitionSize);
  }

  private sealed class PartitionHelper<T> : IEnumerable<IEnumerable<T>>
  {
    readonly IEnumerable<T> items;
    readonly int partitionSize;
    bool hasMoreItems;

    internal PartitionHelper(IEnumerable<T> i, int ps)
    {
      items = i;
      partitionSize = ps;
    }

    public IEnumerator<IEnumerable<T>> GetEnumerator()
    {
      using (var enumerator = items.GetEnumerator())
      {
        hasMoreItems = enumerator.MoveNext();
        while (hasMoreItems)
          yield return GetNextBatch(enumerator).ToList();
      }
    }

    IEnumerable<T> GetNextBatch(IEnumerator<T> enumerator)
    {
      for (int i = 0; i < partitionSize; ++i)
      {
        yield return enumerator.Current;
        hasMoreItems = enumerator.MoveNext();
        if (!hasMoreItems)
          yield break;
      }
    }

    IEnumerator IEnumerable.GetEnumerator()
    {
      return GetEnumerator();      
    }
  }
}

答案 2 :(得分:8)

也许?

public static IEnumerable<IEnumerable<T>> Partition<T>(this IEnumerable<T> items, int partitionSize)
{
    return items.Select((item, inx) => new { item, inx })
                .GroupBy(x => x.inx / partitionSize)
                .Select(g => g.Select(x => x.item));
}

还有一个已经实现的:morelinq的 Batch

答案 3 :(得分:7)

最疯狂的解决方案(使用Reactive Extensions):

public static IEnumerable<IList<T>> Partition<T>(this IEnumerable<T> items, int partitionSize)
{
    return items
            .ToObservable() // Converting sequence to observable sequence
            .Buffer(partitionSize) // Splitting it on spececified "partitions"
            .ToEnumerable(); // Converting it back to ordinary sequence
}

我知道我改变了签名,但无论如何我们都知道我们会将一些固定大小的集合作为一个块。

BTW如果您将使用迭代器块,请不要忘记将您的实现分成两个方法来急切地验证参数!

答案 4 :(得分:3)

为了获得优雅的解决方案,您还可以查看MoreLinq.Batch.

它将源序列批量化为大小的桶。

示例:

int[] ints = new int[] {1,2,3,4,5,6};
var batches = ints.Batch(2); // batches -> [0] : 1,2 ; [1]:3,4 ; [2] :5,6

答案 5 :(得分:2)

public static IEnumerable<IEnumerable<T>> Partition<T>(this IEnumerable<T> items, 
                                                       int partitionSize)
{
    int i = 0;
    return items.GroupBy(x => i++ / partitionSize).ToArray();
}

答案 6 :(得分:1)

您可以使用overload of Enumerable.GroupBy并利用整数除法来实现此目的。

return items.Select((element, index) => new { Element = element, Index = index })
    .GroupBy(obj => obj.Index / partitionSize, (_, partition) => partition);

答案 7 :(得分:0)

System.Collections.Concurrent命名空间中的分区器类怎么样?