通过分隔符

时间:2016-05-14 07:36:20

标签: python pandas dataframe split series

在这种情况下,我尝试将pandas series对象拆分为特定的分隔符"; "。我想将其转换为dataframe,总是会有相同数量的“列”,或者更准确,相同数量的"; "将表示列。我认为这样做会有所作为,但它没有python, how to convert a pandas series into a pandas DataFrame?我不想迭代,我确信pandas已经制作了一个更有效的捷径。

是否有人知道"; "将此系列拆分为数据框的最有效方法?

#Example Data
SR_test = pd.Series(["a; b; c; d; e","aa; bb; cc; dd; ee","a1; b2; c3; d4; e5"])
# print(SR_test)
# 0         a; b; c; d; e
# 1    aa; bb; cc; dd; ee
# 2    a1; b2; c3; d4; e5

#Convert each row one at a time (not efficient)
tmp = []
for element in SR_test:
    tmp.append([e.strip() for e in element.split("; ")])
DF_split = pd.DataFrame(tmp)
# print(DF_split)
#     0   1   2   3   4
# 0   a   b   c   d   e
# 1  aa  bb  cc  dd  ee
# 2  a1  b2  c3  d4  e5

2 个答案:

答案 0 :(得分:9)

您可以使用str.split

df = SR_test.str.split('; ', expand=True)
print df

    0   1   2   3   4
0   a   b   c   d   e
1  aa  bb  cc  dd  ee
2  a1  b2  c3  d4  e5

另一个更快的解决方案,如果Series没有NaN值:

print pd.DataFrame([ x.split('; ') for x in SR_test.tolist() ])
    0   1   2   3   4
0   a   b   c   d   e
1  aa  bb  cc  dd  ee
2  a1  b2  c3  d4  e5

<强>计时

SR_test = pd.concat([SR_test]*1000).reset_index(drop=True)

In [21]: %timeit SR_test.str.split('; ', expand=True)
10 loops, best of 3: 34.5 ms per loop

In [22]: %timeit pd.DataFrame([ x.split('; ') for x in SR_test.tolist() ])
100 loops, best of 3: 9.59 ms per loop

答案 1 :(得分:2)

将矢量化str.split与参数expand=True一起使用,并将数据arg作为DataFrame ctor传递:

In [4]:
df = pd.DataFrame(SR_test.str.split(';',expand=True))
df

Out[4]:
    0    1    2    3    4
0   a    b    c    d    e
1  aa   bb   cc   dd   ee
2  a1   b2   c3   d4   e5