使用Python

时间:2017-11-03 17:45:52

标签: google-cloud-dataflow apache-beam

我试图使用Dataflow / Beam上的Python SDK在PCollection中获取项目示例。

虽然没有记录,但Sample.FixedSizeGlobally(n)存在。

测试时,似乎返回带有单个项目的PCollection:包含样本的列表,而不是包含样本的PCollection。那是对的吗?

这样做是将单项PCollection转换为项目的PCollection的最佳方式吗?

| Sample.FixedSizeGlobally(sample_size)
| beam.FlatMap(lambda x: x)

1 个答案:

答案 0 :(得分:1)

目前,是的。 Sample.FixedSizeGlobally()转换返回带有单个列表元素的PCollection。您可以将其转换为单个元素的PCollection,如您所说:

Sample.FixedSizeGlobally(sample_size)
| beam.FlatMap(lambda x: x)

我们确保添加PC-PC转换 - 我们也欢迎您对Beam的贡献:) - 但与此同时,这就是我们所拥有的。