使用一行

时间:2016-04-22 21:31:32

标签: python python-3.x pandas dataframe

我使用Pandas数据帧来处理数据,我通常将它们视为虚拟电子表格,行和列定义单个单元格的位置。我对切片和切块数据帧的方法感到满意,但是当数据帧包含单行时似乎有一些奇怪的行为。基本上,我想从满足特定条件的大型父数据帧中选择数据行,然后将这些结果作为子数据帧传递给单独的函数以进行进一步处理。有时父数据帧中只有一条记录符合定义的标准,因此子数据帧只包含一行。尽管如此,我仍然需要能够以与父数据库相同的方式访问子系统中的数据。为了说明可以指出,请考虑以下数据帧:

import pandas as pd
tempDF = pd.DataFrame({'group':[1,1,1,1,2,2,2,2],
                       'string':['a','b','c','d','a','b','c','d']})
print(tempDF)

看起来像:

   group string
0      1      a
1      1      b
2      1      c
3      1      d
4      2      a
5      2      b
6      2      c
7      2      d

作为一个例子,我现在可以选择那些' group' == 2和' string' ==' c',只产生一行。正如预期的那样,数据帧的长度为1,并且可以根据原始数据帧中的索引值使用.ix()打印单个单元格:

tempDF2 = tempDF.loc[((tempDF['group']==2) & (tempDF['string']=='c')),['group','string']]
print(tempDF2)
print('Length of tempDF2 = ',tempDF2.index.size)
print(tempDF2.loc[6,['string']])

输出:

   group string
6      2      c
Length of tempDF2 =  1
string    c

但是,如果我使用.loc选择单行,那么数据框将以转置形式打印,数据帧的长度现在为2(而不是1)。显然,根据原始父数据帧的索引,不再可能选择单个单元格值:

tempDF3 = tempDF.loc[6,['group','string']]
print(tempDF3)
print('Length of tempDF3 = ',tempDF3.index.size)

输出:

group     2
string    c
Name: 7, dtype: object
Length of tempDF3 =  2

在我看来,这两种方法实际上都在做同样的事情,即选择一行数据。但是,在第二个示例中,行和列被转置,因此无法以预期的方式提取数据。

为什么要存在这两种行为?将单行数据帧转换为默认行为有什么意义?当我将包含单行的数据帧传递给另一个函数时,如何确保它被转置?

1 个答案:

答案 0 :(得分:3)

tempDF3 = tempDF.loc[6,['group','string']]

6选择的第一个位置中的.loc表示返回类型将是一个系列,因此是您的问题。而是使用[6]

tempDF3 = tempDF.loc[[6],['group','string']]