我正在尝试找到处理大约8000万行数据集的最佳方法。
我需要对这些数据进行一些计算。我正在尝试for
循环,但需要一生。
我有以下数据(从一个区域到另一个区域的单独出租车行程,解析时间为15分钟):
timestamp, origin_area, destination_area
2014-01-27 11:00:00, 28.0, 32.0
2014-01-27 11:00:00, 28.0, 32.0
2013-01-01 01:00:00, 28.0, 1.0
2013-01-01 01:15:00, 28.0, 2.0
我需要将此数据转换为如下所示的列:
时间戳, origin_area, destination_area, (在该时间戳记中,不同原籍-目的地夫妇的旅行总和), (该时间戳记中来自原始地区的所有行程的总和)
如何快速处理这些计算并如上所述创建其他列?
谢谢