google Dataprep:实例数和体系结构优化

时间:2018-05-29 15:46:12

标签: google-cloud-dataprep

我注意到Google dataprep中的每个目标(无论是手动还是预定)都会旋转计算引擎实例。普通帐户的限额为最多8个实例

看看这个流程: dataprep flow

由于datawrangling由多个层组成,您可能希望通过导出实现中间步骤,因此运行dataprep流的最佳方法/架构是什么?

选项A

运行2个单独的流程并安排它们15分钟。差异:

  1. 第一个流程只会导出最后一步
  2. 其他流程仅导出中间步骤
  3. 这样你就没有达到配额限制,但你仍在多次计算同一流量的早期阶段

    选项B

    保持流程原样并请求更多计算引擎配额:计算工作量是相同的,我将只有更多实例并行运行而不是顺序运行

    选项C

    每个步骤都有自己的流程+创建参考数据集: 这样每个流程只会运行一个步骤。

    E.g。 当我运行作业“1549_first_repo”时,我将不再计算前面的3个步骤,而只计算最后一个步骤:引用的“5912_first”表和“1549_first_repo”之间的转换。

    最后一个选项在我看来最合理,因为每次转换最多运行一次,我错过了什么?

    而且,有没有办法按顺序运行每个导出而不是并行

    - 编辑30. May -

    事实证明选项C不是要走的路,因为“引用”是前一流程的纯粹延续。您可以想象在引用的数据集之前以及在引用的数据集之后作为单个流的流程。

    仍然试图弄清楚如何在不冗余地计算相同操作的情况下实现模块化。

1 个答案:

答案 0 :(得分:1)

选项A和B都很好,不同之处在于配额增加。如果您希望早晚升级,不妨早点升级。

如果您熟悉java或python和Dataflow,另一种选择是创建一个管道,该管道具有numWorkers,workerMachineType和maxNumWorkers的组合,该组合在8个内核(或虚拟CPU)的试用限制内)。这里是pipeline option,这里是tutorial,可以使您更好地了解产品。