我必须按照日期字段对数据进行分区。我正在使用分区转换。
当我按月划分年度数据时,Partition会返回一个有12个pcollection的Pcollectionlist。这很好。
我必须在白天划分它。我将不得不在PcollectionList中创建1 * 12 * 31 Pcollection。这通过堆空间错误。我只试了2个月的数据。也就是说,
a PcollectionList of 2*31 Pcollection
我尝试使用拥有超过10名工人的n1-highmem-4和n1-highmem-8机器。仍然通过堆空间错误。我只用2.0 MiB文件进行测试。所以我认为数据大小应该不是问题。屏幕截图如下。
请帮我解决这个问题。或者也欢迎解决我的解决方案。
提前致谢。