Cloud Dataflow - 使用PcollectionList

时间:2016-02-22 12:19:42

标签: google-cloud-platform google-cloud-dataflow

我必须按照日期字段对数据进行分区。我正在使用分区转换。

当我按月划分年度数据时,Partition会返回一个有12个pcollection的Pcollectionlist。这很好。

我必须在白天划分它。我将不得不在PcollectionList中创建1 * 12 * 31 Pcollection。这通过堆空间错误。我只试了2个月的数据。也就是说,

a PcollectionList of 2*31 Pcollection

我尝试使用拥有超过10名工人的n1-highmem-4和n1-highmem-8机器。仍然通过堆空间错误。我只用2.0 MiB文件进行测试。所以我认为数据大小应该不是问题。屏幕截图如下。

enter image description here

enter image description here

请帮我解决这个问题。或者也欢迎解决我的解决方案。

提前致谢。

1 个答案:

答案 0 :(得分:1)

听起来您正在尝试获取数据的基于时间的划分。你看过windowing了吗?它应该允许您进行每月/每日/每小时窗口,而无需执行分区。如果窗口不适用,您能否解释为什么需要在白天进行分区?

您是如何使用分区结果的?由于每个接收器的字节缓冲区,您可能会遇到带有许多接收器的管道的known bug运行到OOM错误。