Cloud Dataflow中PipelineOptions中的窗口持续时间

时间:2019-08-07 08:00:03

标签: google-cloud-dataflow apache-beam

曾经尝试挖掘如何做到这一点,但我不断遇到相同的错误,如下所示……

new_df = pd.merge(DataframeA, DataframeB, how='left', left_on=fileA_headerList, right_on=fileB_headerList)
new_df = new_df[new_df[fileB_headerList].isnull().all(axis=1)]

在实例化和配置管道之后,在需要的自定义DoFn中访问<span>之前,已解决了该问题。

我现在的问题是在管道中定义窗口的持续时间时,它不是自定义对象,如先前提到的那样。

An exception occured while executing the Java class. Value only available at runtime, but accessed from a non-runtime context:

一旦部署了Pipeline,或者当前的Window对象在其某些构造函数中支持PipelineOptions,我将无法解决如何访问该值的问题。

.get()

1 个答案:

答案 0 :(得分:0)

在定义管道时(而不是在执行期间)必须指定窗口持续时间。因此,您应该直接在窗口对象中设置它(例如,FixedWindows)。您设置的值不一定必须来自管道选项。