如何使数据框中的每一行对每列都有一个值?

时间:2017-05-20 01:07:26

标签: python pandas numpy dataframe split

我有以下数据框,其中的列ID_xID_y包含以单个空格分隔的数据:

df = pd.DataFrame({
    'fruit':['apple','orange','banana'],
    'ID_x' : ['1 2 3','4','5'],  
    'ID_y' : ['A B', 'C D','E']
    }, index=['0','1','2'])

enter image description here

我想拆分列中的每个值(ID_xID_y)并创建新行,以便每行代表拆分值的一一对应。

这样的事情:

enter image description here

知道如何解决这个问题吗?

到目前为止,我已尝试拆分列中的值:

col_x = 'ID_x'
col_y = 'ID_y'

df = df_unflat.assign(**{col_x:df_unflat[col_x].str.split(' ')})
df = df_unflat.assign(**{col_y:df_unflat[col_y].str.split(' ')})

2 个答案:

答案 0 :(得分:2)

试试这个:

import pandas as pd
df = pd.DataFrame({
    'fruit':['apple','orange','banana'],
    'ID_x' : ['1 2 3','4','5'],  
    'ID_y' : ['A B', 'C D','E']
    }, index=['0','1','2'])
id_x = df['ID_x'].str.split(' ').apply(Series, 1).stack()
id_y = df['ID_y'].str.split(' ').apply(Series, 1).stack()
id_x.index = id_x.index.droplevel(-1)
id_y.index = id_y.index.droplevel(-1)
id_x.name = 'ID_x'
id_y.name = 'ID_y'
del df['ID_x']
del df['ID_y']
df = df.join(id_x)
df = df.join(id_y)
df.reset_index(drop=True)

输出:

    fruit   ID_x    ID_y
0   apple   1       A
1   apple   1       B
2   apple   2       A
3   apple   2       B
4   apple   3       A
5   apple   3       B
6   orange  4       C
7   orange  4       D
8   banana  5       E

答案 1 :(得分:0)

import itertools
#convert DF values to a numpy array, get all combinations between ID_x, ID_y and fruit, finally reconstruct the Dataframe.    
pd.DataFrame(sum([list(itertools.product(e[0].split(),e[1].split(),[e[2]])) for e in df.values],[]), columns=df.columns)
Out[483]: 
  ID_x ID_y   fruit
0    1    A   apple
1    1    B   apple
2    2    A   apple
3    2    B   apple
4    3    A   apple
5    3    B   apple
6    4    C  orange
7    4    D  orange
8    5    E  banana