我正在使用Apache-Beam和Python SDK。
目前,我的管道读取多个文件,解析它们并从其数据生成pandas数据帧。 然后,它将它们分组为单个数据帧。
我现在想要的是检索这个单个胖数据帧,并将其分配给普通的Python变量。
有可能吗?
答案 0 :(得分:2)
PCollection
只是执行图中的逻辑节点,其内容实际上并不一定存储在任何地方,因此无法直接实现。
但是,您可以要求管道将PCollection
写入文件(例如将元素转换为字符串并将WriteToText
与num_shards=1
一起使用),运行管道并等待它完成,然后从主程序中读取该文件。