为我的ETL流程提取数据后,我得到一个JSON文件,其中某些字段是列表。在我的示例中,数据与支持通知单有关,而列表字段为cc_emails。现在,我想要创建一个多对多关系,以便为票证,cc_emails和该关系提供一个数据框。这需要自动化,因此当我收到新数据时,它会自动创建新的ID等。
我得到的是带有票证和cc_emails的两个数据框。
门票:
+---+------------+--------------------+
| | id | created_at |
+---+------------+--------------------+
| 0 | 18 |2015-08-17T12:02:50Z|
| 1 | 17 |2015-08-17T12:02:06Z|
+---+------------+--------------------+
cc_emails:
+---+------------+--------------------+
| | ticket_id | cc_emails |
+---+------------+--------------------+
| 0 | 18 |user@cc.com |
| 1 | 18 |user2@cc.com |
| 0 | 17 |test@cc.com |
| 1 | 17 |test2@cc.com |
+---+------------+--------------------+
这是我提取数据时得到的JSON格式:
[
{
"cc_emails" : ["user@cc.com", "user2@cc.com"],
"id" : 18,
"created_at" : "2015-08-17T12:02:50Z"
},
{
"cc_emails" : ["test@cc.com", "test2@cc.com"],
"id" : 17,
"created_at" : "2015-08-17T12:02:06Z"
}
]
目标是,例如,在cc_emails数据帧中,我没有其他带有ID的票证或相同的电子邮件,以避免复制和冗余。