根据列值对有序熊猫数据框中的行进行分组

时间:2018-10-12 16:00:53

标签: python python-3.x pandas

我有一个问题,要根据熊猫的数据列值将它们仅按熊猫数据框中的特定行分组(按时间戳排序)。

这是一个例子:

df=pd.DataFrame({"text":["Hello.",
                    "I had a question.", 
                    "Hi!",
                    "Yes how can I help?",
                    "Do you ship to the UK?"
                    ],
            "timestamp":[
                        pd.Timestamp('20131213 11:50:00'),
                        pd.Timestamp('20131213 11:51:00'),
                        pd.Timestamp('20131213 11:52:00'),
                        pd.Timestamp('20131213 11:53:00'),
                        pd.Timestamp('20131213 11:54:00')
                        ],
            "direction":["In","In","Out","Out","In"]})

这是数据框的外观:

enter image description here

此数据帧按时间戳排序,并且可以是(例如)聊天线程,其中“进入”方向可以是一个人在说话,而“出去”是另一个人在说话。

我想得到的是这样的: enter image description here

在最后一个数据帧中,如果行的方向相同,则将行的文本分组为一行,但是直到到达具有不同方向的行时,行才被分组为一行。 并且消息的顺序得以保留。

有人有什么想法吗?

2 个答案:

答案 0 :(得分:1)

设置

operations = {
    'text': ' '.join,
    'direction': 'first',
}

使用agg和一个常见技巧来按连续值分组:

df.groupby(df.direction.ne(df.direction.shift()).cumsum()).agg(operations)

                               text direction
direction
1          Hello. I had a question.        In
2           Hi! Yes how can I help?       Out
3            Do you ship to the UK?        In

答案 1 :(得分:0)

如何做这样的事情:

# indicate direction changes
df['dir'] = df.direction.shift(1).bfill()
df['dir_change'] = df.apply(lambda x: 1 if x.direction != x.dir else 0, axis=1)

# create new groups
df['new_group'] = df.dir_change.cumsum()

# group on new groups and aggregate the text
agg_df = df.groupby('new_group').agg({'text':lambda x: ' '.join(list(x)), 'timestamp':'first'})