我正在运行一个数据流作业,该作业从BigQuery读取并在8 GB of data and result in more than 50,000,000 records.
周围进行扫描。现在,我要一步一步地基于键进行分组,并且需要将一列连接起来。但是,在连接列的连接大小超过100 MB之后,为什么我必须在数据流作业中执行该分组依据,因为无法在Bigquery level due to row size limit of 100 MB.
现在,从BigQuery读取数据流作业时,它的伸缩性很好,但被卡在Group by Step上,我有2个版本的数据流代码,但是两者都卡在group by step上。 When I checked the stack driver logs, it says, processing stuck at lull for more than 1010 sec time(similar kind of message) and Refusing to split GroupedShuffleReader <dataflow_worker.shuffle.GroupedShuffleReader object at 0x7f618b406358> kind of message
我希望按状态分组可以在20分钟内完成,但是会停留超过1个小时且永远不会完成