在数据集上使用什么是正确的连接?

时间:2018-06-04 12:55:54

标签: join left-join relational-database inner-join

我有两个数据集: 第一个数据集

     Date      Revenue  Country  Platform   Application
    2018-05-18   200       US     Google      XYZ
    2018-05-18   100       US      IOS        XYZ
    2018-05-18   200       AU     Google      XYZ
    2018-05-18   100       US     Amazon      XYZ

第二个数据集

  Date      Platform  Application  Country  ConversionRate
2018-05-18   Google       XYZ        US         0.56
2018-05-18   Amazon       XYZ        US         0.75
2018-05-18   Samsung      XYZ        US         0.26
2018-05-18     IOS        XYZ        US         0.45

我正在尝试为数据设计适当的连接。主要数据来自First Data set。我想要来自第二个数据集的转换率与来自第一个数据集的所有数据,并且应该根据日期以及应用程序,平台和国家/地加入值。我尝试过内连接和左连接,但输出似乎不对。任何帮助表示赞赏。

我得到的输出:

  Date      Revenue   Country   Platform  Application ConversionRate
2018-05-18    200        US      Google      XYZ           0.56
2018-05-18    200        US      Google      XYZ           0
2018-05-18    200        US      Google      XYZ           0
2018-05-18    200        US      Google      XYZ           0

特定日期的特定应用(国家,平台等)的转化率应相同。即使Google平台存在多次,转换率也应该重复这么多次。

1 个答案:

答案 0 :(得分:0)

找出问题所在。就像我们可以在SQL中添加和条件一样,我们可以在Google DataPrep中实现。那是我遇到的问题。只需在连接操作期间添加多个列进行检查,这似乎已解决了问题。