如何检索PCollection的内容并将其分配给正常变量?

时间:2018-02-07 16:27:33

标签: python apache-beam

我正在使用Apache-Beam和Python SDK。

目前,我的管道读取多个文件,解析它们并从其数据生成pandas数据帧。 然后,它将它们分组为单个数据帧。

我现在想要的是检索这个单个胖数据帧,并将其分配给普通的Python变量。

有可能吗?

1 个答案:

答案 0 :(得分:2)

PCollection只是执行图中的逻辑节点,其内容实际上并不一定存储在任何地方,因此无法直接实现。

但是,您可以要求管道将PCollection写入文件(例如将元素转换为字符串并将WriteToTextnum_shards=1一起使用),运行管道并等待它完成,然后从主程序中读取该文件。