大熊猫熊猫时间序列分析

时间:2017-04-06 02:51:11

标签: python pandas

我是SQL / Pandas的新手,因此这个问题。 我有3张桌子,

['invites','quotes', 'users']

每个人的结构都是

invites->invite_id, request_id, user_id, date

quotes ->quote_id, invite_id, data

....

我运行以下查询来加入针对邀请的引号。

'SELECT i.invite_id, q.quote_id, i.sent_time FROM invites AS i INNER JOIN quotes AS q ON i.invite_id = q.invite_id'

这给了我下面的表格,

invite_id, quote_id, date

我已导入数据框。 现在我想从这个数据框中找到两件事。

quotes_per_invite

quotes_per_invite_on_a_per_day_basis

我不知道该怎么做。真的很感激一些帮助。

1 个答案:

答案 0 :(得分:1)

检查groupby

上的pandas文档

计算每个邀请的所有报价

df.groupby('invite_id')['quote_id'].count()

或计算每个邀请的不同或唯一引号

df.groupby('invite_id')['quote_id'].nunique() 

*HINT*您可以在groupby中使用列表。