将字符串中的分隔数据转换为单个列中的值

时间:2016-08-05 09:31:39

标签: python pandas data-manipulation

我有一个这样的数据框:

Var_1
201601_abc
201603_tbc;201608_sdf;201508_dsf
201601_abc;201508_dsf
...

我想要一个包含Var1中不同值的列(由“;”分隔的值被视为不同

所以最终的数据框将如下:

Var_2
201601_abc
201603_tbc
201608_sdf
201508_dsf

1 个答案:

答案 0 :(得分:2)

IIUC以下应该有效:

In [160]:
df2 = pd.DataFrame(df['Var_1'].str.split(';',expand=True).stack().unique(), columns=['Var_2'])
df2

Out[160]:
        Var_2
0  201601_abc
1  201603_tbc
2  201608_sdf
3  201508_dsf

这会拆分分隔符上的值,然后stack s并返回unique值,然后我们可以根据返回的数组构建一个新的df

分割上述步骤:

In [161]:
df['Var_1'].str.split(';',expand=True)

Out[161]:
            0           1           2
0  201601_abc        None        None
1  201603_tbc  201608_sdf  201508_dsf
2  201601_abc  201508_dsf        None

In [162]:    
df['Var_1'].str.split(';',expand=True).stack()

Out[162]:
0  0    201601_abc
1  0    201603_tbc
   1    201608_sdf
   2    201508_dsf
2  0    201601_abc
   1    201508_dsf
dtype: object

In [163]:
df['Var_1'].str.split(';',expand=True).stack().unique()

Out[163]:
array(['201601_abc', '201603_tbc', '201608_sdf', '201508_dsf'], dtype=object)