google-cloud-dataflow - 如何缩小数据流作业？

您要做的是将尺寸问题转移到您的数据中，而不是移动到管道的大小。来自＆＃34;控制平面＆＃34;如果您愿意，可以访问＆＃34;数据平面＆＃34;

对于要在其上运行报告的数据的每个子集，请为该子集分配密钥。假设每个报告都是按键，您将要构建包含原始密钥和报告密钥的复合密钥。然后，您可以在单个Dog上将所有top n 报告（针对特定的 n ）计算为import matplotlib matplotlib.use('TkAgg') import pylab import matplotlib.pyplot as plt from matplotlib import rc plt.clf() plt.rc('text', usetex=True) plt.rcParams["figure.figsize"] = (8, 5) plt.rc('font', **{'family':'serif', 'serif':['Computer Modern Roman'], 'size': 16}) plt.axis("off") plt.text(0.5, 0.5, "Maths $e = mc^2$")。

假设您有针对不同阈值的多个top n 报告，例如top-10，top-100等，以及 n 与子集之间的关系你的数据太复杂了，不能运行最大的数据，修剪得到其他数据。然后你可以为每个 n 运行一个单独的变换（仍然不应该太多）或组装一个composed combine来计算它们。

如何缩小数据流作业？

1 个答案: