如何对大数据应用(pd.Series)?

时间:2018-12-10 15:04:00

标签: python database pandas bigdata

基本上,我的数据类似于 Python 中的 pandas

                   clients               product
0   [NAME1|2002,NAME1a|200]         CURRENT ACCOUNT
1   [NAME2|2002,NAME2a|200]         CURRENT ACCOUNT
2   [NAME3|2002]                    INSTANT PLUS
3   [NAME4|2001,NAME4a|200]         ALLDAY CURRENT ACCOUNT
4   [NAME5|2001,NAME5a|200]         CURRENT ACCOUNT

这大约有1400万行。我想从上面的表中获取下表:

          clients                product
0   [NAME1|2002]            CURRENT ACCOUNT
1   [NAME1a|200]            CURRENT ACCOUNT
2   [NAME2|2002]            CURRENT ACCOUNT
3   [NAME2a|200]            CURRENT ACCOUNT
4   [NAME3|2002]            INSTANT PLUS
5   [NAME4|2001]            ALLDAY CURRENT ACCOUNT
6   [NAME4a|200]            ALLDAY CURRENT ACCOUNT
7   [NAME5|2001]            CURRENT ACCOUNT
8   [NAME5a|200]            CURRENT ACCOUNT

因此,出现在“客户”列列表中的每个名称都有自己的专用行,具有相同的信息。基本上,我希望它像使用SQL一样“ 爆炸 ”列客户端,但是我似乎无法使用apply(pd.Series)来拆分列表值分成两列,然后将它们合并。我可以针对较小的数据集执行上述操作,但对于大型数据集却没有发生。是否有另一种/快速的方法可以做到这一点。

0 个答案:

没有答案