Question

我有一个包含几个分类变量的Pandas DataFrame。例如：

import pandas as pd

d = {'grade':['A','B','C','A','B'], 
    'year':['2013','2013','2013','2012','2012']}

df = pd.DataFrame(d)

我想将其转换为具有以下属性的MultiIndex DataFrame：

第一级索引是变量名称（例如＆＃39; grade＆＃39;）
第二级索引是变量中的级别（例如＆＃39; A＆＃39;＆＃39; B＆＃39;＆＃39; C＆＃39;）
一栏包含＆＃39; n＆＃39;，等级显示的次数
第二列包含＆＃39;比例＆＃39;，该比例代表的比例。

例如：

有人可以建议一种创建此MultiIndex DataFrame的方法吗？

Answer 1

另一种方法可以使用melt和groupby：

df_out = df.melt().groupby(['variable','value']).size().to_frame(name='n')
df_out['proportion'] = df_out['n'].div(df_out.n.sum(level=0),level=0)
print(df_out)

输出：

                n  proportion
variable value               
grade    A      2         0.4
         B      2         0.4
         C      1         0.2
year     2012   2         0.4
         2013   3         0.6

而且，如果你真的想变得疯狂并且在单行中做到这一点：

(df.melt().groupby(['variable','value']).size().to_frame(name='n')
  .pipe(lambda x: x.assign(proportion = x[['n']]/x.groupby(level=0).transform('sum'))))

使用@Wen pct计算升级解决方案：

(df.melt().groupby(['variable','value']).size().to_frame(name='n')
  .pipe(lambda x: x.assign(proportion = x['n'].div(x.n.sum(level=0),level=0))))

Answer 2

你可以试试这个..

If Now.ToString("hh:mm:ss tt") >= "06:00:00 AM" and Now.ToString <= "11:00:00 AM" Then
     'Do something
End If

Answer 3

Stey by step method：

df1 = df.groupby("grade").count()
df2 = df.groupby("year").count() 

df1.columns = ['n']
df2.columns = ['n']
df1['proportion'] = df1.divide(df1.sum())
df2['proportion'] = df2.divide(df2.sum())

df_new = pd.concat([df1, df2], keys=['grade', 'year'], names=['variable'])

在使用concat时，可以指定将成为最外层索引的keys。同时使用names=为此新索引指定名称。

Answer 4

可以通过在循环中堆叠每个变量来创建DataFrame，但这似乎效率低下。 e.g：

ojCollapsible

我希望有人能提出更好的方法，避免循环。

将分类变量的Pandas DataFrame转换为具有计数和比例的MultiIndex

4 个答案: