如果我有以下内容,我如何使pd.DataFrame()将此数组转换为具有两列的数据框。什么是最有效的方式?我目前的方法是将每个副本创建为一个系列,并从中创建数据帧。
由此:
([[u'294 (24%) L', u'294 (26%) R'],
[u'981 (71%) L', u'981 (82%) R'],])
到
x y
294 294
981 981
而不是
x
[u'294 (24%) L', u'294 (26%) R']
我目前的做法。寻找更有效率的东西
numL = pd.Series(numlist).map(lambda x: x[0])
numR = pd.Series(numlist).map(lambda x: x[1])
nL = pd.DataFrame(numL, columns=['left_num'])
nR = pd.DataFrame(numR, columns=['right_num'])
nLR = nL.join(nR)
nLR
更新**
我注意到我的错误只是当你pd.DataFrame()列表与系列时。当您从列表中创建数据框时,它会将项目合并到同一列中。列表不是这样。这以最有效的方式解决了我的问题。
答案 0 :(得分:5)
In [172]: data = [[u'294 (24%) L', u'294 (26%) R'], [u'981 (71%) L', u'981 (82%) R'],]
In [173]: clean_data = [[int(item.split()[0]) for item in row] for row in data]
In [174]: clean_data
Out[174]: [[294, 294], [981, 981]]
In [175]: pd.DataFrame(clean_data, columns=list('xy'))
Out[175]:
x y
0 294 294
1 981 981
[2 rows x 2 columns]
答案 1 :(得分:-1)
要升级@unutbu答案,因为我认为该代码不会因为以下参数而起作用:
columns=list('xy')
所以我认为应该像这样不正确的论点:
pd.DataFrame(clean_data, columns=['x', 'y'])
来自官方docs。