pandas根据同一列的值设置列

时间:2014-07-07 09:01:18

标签: python pandas

我有以下数据框:

userid       date
  1        2010-01-03
  2        2009-01-04
  3        2004-02-03
  1        2007-01-01

如果另一行中有另一个具有较早日期的类似用户ID,我想创建一个输出true的列。即。

userid       date        userid_seen
  1        2010-01-03        t
  2        2009-01-04        f
  3        2004-02-03        f
  1        2007-01-01        f  

我该怎么做?

2 个答案:

答案 0 :(得分:3)

这可以通过调用apply并传递param axis=1以逐行应用来实现:

In [88]:

def func(x):
    if len(df.loc[(df['userid'] == x.userid) & (df['date'] != x.date), 'date']) > 0:
        return (df.loc[(df['userid'] == x.userid) & (df['date'] != x.date), 'date'] < x.date).values.max()
    return False
df['user_id_seen'] = df.apply(lambda row: func(row), axis=1)
df
Out[88]:
   userid       date user_id_seen
0       1 2010-01-03         True
1       2 2009-01-04        False
2       3 2004-02-03        False
3       1 2007-01-01        False

<强>更新

虽然上述工作对于大型数据帧来说会很慢,因为@MattiJohn正确指出,因为这会有效地遍历每一行。

以下是一个更紧凑的答案,类似于@MattiJohn的回答:

In [102]:

df['user_id_seen'] = df.groupby('userid')['date'].transform('min') < df.date
df
Out[102]:
   userid       date user_id_seen
0       1 2010-01-03         True
1       2 2009-01-04        False
2       3 2004-02-03        False
3       1 2007-01-01        False

答案 1 :(得分:2)

我这样做的方法是计算每个用户ID的最早日期,然后检查该行是否有更新的日期。假设df是您的DataFrame:

min_date = pd.DataFrame(df.groupby('userid')['date'].agg({'min_date': min}))
df = df.merge(min_date, left_on='userid', right_index=True)
df['userid_seen'] = df.date > df.min_date
df = df[['userid', 'date', 'userid_seen']]  # get rid of the 'min_date' column