有关如何解决此错误除了减少流中的转换次数(或者,可能减少流图中所有转换对象的总序列化大小)的任何建议?
谢谢,
答案 0 :(得分:2)
Dataflow目前在我们的系统中存在限制,限制请求为1MB。作业的大小特别与管道的JSON表示相关联;更大的管道意味着更大的要求。
我们正在努力增加此限制。在此期间,您可以通过将工作分成较小的工作来解决此限制,以便每个工作描述少于1MB
要估算请求的大小,请使用选项
运行管道--dataflowJobFile = <path to output file>
这会将作业的JSON表示写入文件。该文件的大小是对请求大小的良好估计。由于作为请求的一部分的附加信息,请求的实际大小将略大。
感谢您的耐心等待。
一旦限制增加,我们将更新此线程。
答案 1 :(得分:0)
您是否将大量数据序列化为管道规范的一部分?例如,您是否使用Create Transform从内联数据创建PCollections?
你可以分享json文件吗?如果您不想公开分享,可以将其私下发送给Dataflow团队。
答案 2 :(得分:0)
它已于2018年11月16日合并到Beam中。在将它包含在Dataflow中之前,应该不会太长。