Question

为我的ETL流程提取数据后，我得到一个JSON文件，其中某些字段是列表。在我的示例中，数据与支持通知单有关，而列表字段为cc_emails。现在，我想要创建一个多对多关系，以便为票证，cc_emails和该关系提供一个数据框。这需要自动化，因此当我收到新数据时，它会自动创建新的ID等。

我得到的是带有票证和cc_emails的两个数据框。

门票：

+---+------------+--------------------+
|   |     id     | created_at         |
+---+------------+--------------------+
| 0 | 18         |2015-08-17T12:02:50Z|
| 1 | 17         |2015-08-17T12:02:06Z|
+---+------------+--------------------+

cc_emails：

+---+------------+--------------------+
|   | ticket_id  |     cc_emails      |
+---+------------+--------------------+
| 0 | 18         |user@cc.com         |
| 1 | 18         |user2@cc.com        |
| 0 | 17         |test@cc.com         |
| 1 | 17         |test2@cc.com        |
+---+------------+--------------------+

这是我提取数据时得到的JSON格式：

[
    {
    "cc_emails" : ["user@cc.com", "user2@cc.com"],
    "id" : 18,
    "created_at" : "2015-08-17T12:02:50Z"
    },
    { 
    "cc_emails" : ["test@cc.com", "test2@cc.com"],
    "id" : 17,
    "created_at" : "2015-08-17T12:02:06Z"
    }
]

目标是，例如，在cc_emails数据帧中，我没有其他带有ID的票证或相同的电子邮件，以避免复制和冗余。

有没有一种方法可以与熊猫中每个数据提取之间建立多对多关系？

0 个答案: