有没有一种方法可以与熊猫中每个数据提取之间建立多对多关系?

时间:2019-06-19 11:45:53

标签: python pandas dataframe many-to-many etl

为我的ETL流程提取数据后,我得到一个JSON文件,其中某些字段是列表。在我的示例中,数据与支持通知单有关,而列表字段为cc_emails。现在,我想要创建一个多对多关系,以便为票证,cc_emails和该关系提供一个数据框。这需要自动化,因此当我收到新数据时,它会自动创建新的ID等。

我得到的是带有票证和cc_emails的两个数据框。

门票:

+---+------------+--------------------+
|   |     id     | created_at         |
+---+------------+--------------------+
| 0 | 18         |2015-08-17T12:02:50Z|
| 1 | 17         |2015-08-17T12:02:06Z|
+---+------------+--------------------+

cc_emails:

+---+------------+--------------------+
|   | ticket_id  |     cc_emails      |
+---+------------+--------------------+
| 0 | 18         |user@cc.com         |
| 1 | 18         |user2@cc.com        |
| 0 | 17         |test@cc.com         |
| 1 | 17         |test2@cc.com        |
+---+------------+--------------------+

这是我提取数据时得到的JSON格式:

[
    {
    "cc_emails" : ["user@cc.com", "user2@cc.com"],
    "id" : 18,
    "created_at" : "2015-08-17T12:02:50Z"
    },
    { 
    "cc_emails" : ["test@cc.com", "test2@cc.com"],
    "id" : 17,
    "created_at" : "2015-08-17T12:02:06Z"
    }
]

目标是,例如,在cc_emails数据帧中,我没有其他带有ID的票证或相同的电子邮件,以避免复制和冗余。

0 个答案:

没有答案