Question

对于我在Python中的面板数据分析，我想检查转换概率。我有人年组合和一些分类变量，例如健康状况（1=excellent，2=good等）。

我需要一个绝对和/或相对频率的摘要表，以了解从一种状态/类别到另一种状态/类别的更改发生的频率-每人，而不是每列。尤其不应包括索引6和7之间的健康状态差异，因为它不是一个人内部的过渡。

以下是一些示例数据：

import pandas as pd
df = pd.DataFrame({'year': ['2003', '2004', '2005', '2006', '2007', '2008', '2009',
                             '2003', '2004', '2005', '2006', '2007', '2008', '2009'],
                   'id': ['1', '1', '1', '1', '1', '1', '1', 
                          '2', '2', '2', '2', '2', '2', '2',],
                   'health': ['3', '1', '2', '2', '5', '1', '1', 
                             '1', '2', '3', '2', '1', '1', '2']}).astype(int)

输出应如下所示（计算状态转换的发生次数）：

（也许Python中有些东西与Stata的xttrans命令类似？）

Answer 1

使用shift创建新列。 where确保在id更改时排除它。然后，这是crosstab（或groupby大小，或ivot_table）以获取计数。

import pandas as pd
#df = df.sort_values(['id', 'year'])

df['health_trans'] = df.health.shift(-1).where(df.id.eq(df.id.shift(-1)))
pd.crosstab(df.health, df.health_trans)

#health_trans  1.0  2.0  3.0  5.0
#health                          
#1               2    3    0    0
#2               1    1    1    1
#3               1    1    0    0
#5               1    0    0    0

要确保始终列出所有转换，请使用reindex。

health = range(1,6)

(pd.crosstab(df.health, df.health_trans)
   .reindex(health).reindex(health, axis=1)
   .fillna(0).astype(int))

#health_trans  1  2  3  4  5
#health                     
#1             2  3  0  0  0
#2             1  1  1  0  1
#3             1  1  0  0  0
#4             0  0  0  0  0
#5             1  0  0  0  0

这可能无法处理id丢失了几年的情况。似乎您开始时需要一个平衡的面板，在这种情况下没有问题。

如何计算过渡概率

1 个答案: