标签: google-cloud-dataflow apache-beam
我的目标是连接两个表,其中第二个表是普通表,第一个是嵌套结构表。连接键在第一个表的嵌套结构内可用。在这种情况下,如何使用数据流Java代码联接这两个表。 WithKeys(org.apache.beam.sdk.transforms.WithKeys)接受直接的列名,并且不允许像firstTable.columnname这样。有人可以帮助解决这个问题。
firstTable.columnname
答案 0 :(得分:1)
如果两个表都一样大,请考虑使用here中所述的CoGroupByKey变换。在执行此操作之前,您将必须将数据转换为由适当的键作为键的两个PCollection。
如果一个表明显小于另一个表,则按照here所述,将较小的PCollection作为较大的PCollection上的ParDo的侧面输入提供,可能是更好的选择。