Beam / Dataflow 2.2.0 - 从pcollection

时间:2018-01-15 16:36:05

标签: java google-cloud-dataflow apache-beam dataflow

有没有办法在梁pcollection中提取前n个元素?文档似乎并不表示任何此类功能。我认为这样的操作首先需要一个全局元素编号赋值,然后是一个过滤器 - 拥有这个功能会很好。

我使用Google DataFlow Java SDK 2.2.0

1 个答案:

答案 0 :(得分:2)

PCollection本身是无序的,所以“前N个元素”的概念不存在 - 但是:

  • 如果您需要按某种标准排求前N个元素,可以使用the Top transform

  • 如果您需要任何 N个元素,可以使用Sample