Cloud Dataprep - 根据其他列中的值将一列中的行相乘

时间:2018-06-12 09:09:04

标签: google-cloud-dataprep

我在Cloud Dataprep工作,我有一个这样的案例:

enter image description here

基本上我需要根据第1列中匹配数据的行数在第2列中创建新行。

是否可能以及如何?

1 个答案:

答案 0 :(得分:0)

我了解您希望拥有的方案是:获取column1中与column2中存在的值匹配的所有值。在这种情况下要考虑很多事情,你没有描述,例如:{em> column2中的值可以重复吗?或如果{{1}中有值在column2中遗失了,会发生什么?反过来会发生什么?

但是,作为解决此问题的一般方法,我将执行以下操作: enter image description here

使用这样的流程,你获取输入表,它是两列,如下所示: enter image description here

在食谱column1FIRST_COLUMN中,您将两个列拆分为不同的分支,并执行必要的步骤来清理每个列。在SECOND_COLUMN中,我理解不需要做任何事情。在column1中,我了解您必须删除重复项(同样,这是我的猜测,但这取决于您的具体实施,您尚未完全描述)和删除空值。您可以应用以下转换: enter image description here

最后,您可以将两个列连接在一起。根据您的需要(只显示两列中的值,只显示column2中显示的值等),您应该应用different JOIN strategy。您应该使用 Join key ,如columnX(如图中所示),如果您只选择左侧菜单中的第二列,您将获得单列结果。 enter image description here

请注意,在这种情况下,我使用了内连接,但使用其他JOIN类型将提供完全不同的结果。使用最符合您要求的那个。