计算大型数据框的最佳方法?

时间:2018-12-25 11:59:08

标签: python pandas

我正在尝试找到处理大约8000万行数据集的最佳方法。 我需要对这些数据进行一些计算。我正在尝试for循环,但需要一生。

我有以下数据(从一个区域到另一个区域的单独出租车行程,解析时间为15分钟):

timestamp,        origin_area, destination_area

2014-01-27 11:00:00, 28.0,        32.0

2014-01-27 11:00:00, 28.0,        32.0

2013-01-01 01:00:00, 28.0,        1.0

2013-01-01 01:15:00, 28.0,        2.0

我需要将此数据转换为如下所示的列:

时间戳, origin_area, destination_area, (在该时间戳记中,不同原籍-目的地夫妇的旅行总和), (该时间戳记中来自原始地区的所有行程的总和)

如何快速处理这些计算并如上所述创建其他列?

谢谢

1 个答案:

答案 0 :(得分:0)

我有groupby()size()来做到这一点。

df.groupby(['timestamp', 'origin_area','destination_area']).size().reset_index(name='Count').sort_values(by="timestamp", 
                                                                            ascending=False).reset_index(drop=True)

enter image description here

;)