转换为具有行作为列表的正常数据帧。将行拆分为列

时间:2016-09-19 15:27:35

标签: python list pandas dataframe multiple-columns

读取复杂json的我的数据帧输出如下所示。

单个行是单列中的列表。

以下是示例数据框(df

col
[A,1,3,4,Null]
[B,4,5,6,Null]
[C,7,8,9,Null]

我尝试使用pandas拆分到单个列,但它不起作用,因为单个行本身就是一个列表。 我希望数据框看起来如下所示。

colA,colB,colC,colD,colE
A    1    3     4    Null
B    4    5     6    Null
C    7    8     9    Null

我不需要手动指定列名,它可以自动生成。

2 个答案:

答案 0 :(得分:1)

您可以使用DataFrame.from_records,但首先需要从列list的值创建嵌套的col

df = pd.DataFrame({'col':[['A',1,3,4,'Null'],['B',4,5,6,'Null'],['C',7,8,9,'Null']]})
print (df)
                  col
0  [A, 1, 3, 4, Null]
1  [B, 4, 5, 6, Null]
2  [C, 7, 8, 9, Null]

print (df.col.values.tolist())
[['A', 1, 3, 4, 'Null'], ['B', 4, 5, 6, 'Null'], ['C', 7, 8, 9, 'Null']]

df1 = pd.DataFrame.from_records(df.col.values.tolist(), 
                                columns=['colA','colB','colC','colD','colE'])

print(df1)
  colA  colB  colC  colD  colE
0    A     1     3     4  Null
1    B     4     5     6  Null
2    C     7     8     9  Null

如果不需要指定列名:

df1 = pd.DataFrame.from_records(df.col.values.tolist())
print(df1)
   0  1  2  3     4
0  A  1  3  4  Null
1  B  4  5  6  Null
2  C  7  8  9  Null

<强>计时

#len(df) = 4k
df = pd.concat([df]*1000).reset_index(drop=True)

In [80]: %timeit pd.DataFrame(df['col'].apply(pd.Series).values, columns=['colA','colB','colC','colD','colE'])
1 loop, best of 3: 753 ms per loop

In [81]: %timeit pd.DataFrame.from_records(df.col.values.tolist(), columns=['colA','colB','colC','colD','colE'])
100 loops, best of 3: 3.73 ms per loop

答案 1 :(得分:0)

您可以根据每行使用applypd.Series ctor的结果构建一个df:

In [99]:
pd.DataFrame(df['col'].apply(pd.Series).values, columns=['colA','colB','colC','colD','colE'])

Out[99]:
  colA colB colC colD  colE
0    A    1    3    4  Null
1    B    4    5    6  Null
2    C    7    8    9  Null