问题与this有关。
我正在尝试使用Dataflow / Beam上的Python SDK获取PCollection中的项目示例。
Sample.FixedSizeGlobally(n)
存在并导致PCollection为Iterable。
假设我有这个:
pipeline | Sample.FixedSizeGlobally(sample_size) | beam.Map(my_function)
在这种情况下,不清楚整个样本是否最终会导致单个工作人员,并且会导致内存不足或是否会分发样本。
答案 0 :(得分:0)
采样PTransforms的当前实现(从Beam 2.4.0开始)存在这个问题。如果你的样本太大,那么它可能会压倒一个工人。
它还存在并行性很低的问题。
此转换的改进应在几个月内完成,并在JIRA issue BEAM 3000
中进行跟踪