标签: google-cloud-dataflow apache-beam
我有2个PCollection,A和B。
我想做这样的事情:
for a in A: for b in B: a.give(b);
B包含10GB文件中的所有行。
我曾考虑过让每个工作人员自己使用java代码读取文件并写入其自己的磁盘,但是我想尽可能多地使用Beam框架功能,所以该选项目前是不得已的。
我试图在光束中做些什么?
答案 0 :(得分:0)
是的,有多种方法可以执行此操作。您可以选择哪种方法取决于问题的具体/细节:
B
A
CoGroupByKey
Join
希望这会有所帮助。