我想从pandas数据帧df
的列中获取一个2d-numpy数组,每行都有一个numpy向量。但是如果我做的话
df.values.shape
我得到:(3,)
而非获得:(3,5)
(假设数据框中的每个numpy向量都有5个维度,并且数据框有3行)
什么是正确的方法?
答案 0 :(得分:7)
理想情况下,通过首先找到另一种定义DataFrame的方法来避免陷入这种情况。但是,如果您的DataFrame看起来像这样:
s = pd.Series([np.random.randint(20, size=(5,)) for i in range(3)])
df = pd.DataFrame(s, columns=['foo'])
# foo
# 0 [4, 14, 9, 16, 5]
# 1 [16, 16, 5, 4, 19]
# 2 [7, 10, 15, 13, 2]
然后你可以通过在数组列表上调用pd.DataFrame
将它转换为形状(3,5)的DataFrame:
pd.DataFrame(df['foo'].tolist())
# 0 1 2 3 4
# 0 4 14 9 16 5
# 1 16 16 5 4 19
# 2 7 10 15 13 2
pd.DataFrame(df['foo'].tolist()).values.shape
# (3, 5)
答案 1 :(得分:1)
我不确定你想要什么。但df.values.shape
似乎正在给出正确的结果。
import pandas as pd
import numpy as np
from pandas import DataFrame
df3 = DataFrame(np.random.randn(3, 5), columns=['a', 'b', 'c', 'd', 'e'])
print df3
# a b c d e
#0 -0.221059 1.206064 -1.359214 0.674061 0.547711
#1 0.246188 0.628944 0.528552 0.179939 -0.019213
#2 0.080049 0.579549 1.790376 -1.301700 1.372702
df3.values.shape
#(3L, 5L)
df3["a"]
#0 -0.221059
#1 0.246188
#2 0.080049
df3[:1]
# a b c d e
#0 -0.221059 1.206064 -1.359214 0.674061 0.547711