如何使用每个键的不同采样率对PCollection中的每个键进行采样?

时间:2017-09-10 17:55:26

标签: google-cloud-dataflow apache-beam

我正在经历并将一些Spark工作转移到Cloud Dataflow / Apache Beam 2.0。

其中一个作业使用pairRdd.sampleByKey(sampleRates),其中sampleRates是一个地图,其中键与pairRdd中的键匹配,值是应该对该键进行采样的速率。

我发现Beam有一个Sample.fixedSizePerKey(sampleCount)似乎是最接近的等价物。但是,这些样本是固定数量的(如方法名称所示),但对每个键都是如此。

我已经挖掘了Sample类,看看它是否可以被修改为接受一个地图并获得每个键不同的计数,但我找不到一种方法来访问PCollection<KV<K,V>

如何才能访问PCollectionPTransform内的密钥才能执行此操作?

0 个答案:

没有答案