犯罪'计算'来自pandas大数据集

时间:2017-12-01 21:09:17

标签: python pandas loops bigdata

这是一个相当广泛的问题,因为我不能复制我尝试的所有不同的东西。从NYPD犯罪数据集:https://data.cityofnewyork.us/Public-Safety/NYPD-Complaint-Data-Historic/qgea-i56i

我正在尝试遍历CMPLNT_FR_DT行(这是一个字符串并且无视并转换为DateTime对象)

创建一个数据框并用值填充它,使其如下所示:

code

所以示例行看起来像:

[Date]                        [Borough]              [Crime Count]       
01-01-2014
...

...

...

12-31-2014

并代表2014年5月23日,皇后区发生了45起罪行。

我腌制数据集以加快处理时间。我正在使用python pandas库。我的问题是,无论我多么努力地计算犯罪率,我似乎都无法遍历CMPLNT_FR_DT。我也不能使用05-23-2014 QUEENS 45 函数将NYPD_Historic数据框中的值设置为新值。此外,即使尝试使用set_value计算自治市镇事件,也会产生一个只能使用MultiIndex'错误。很感谢任何形式的帮助!

1 个答案:

答案 0 :(得分:2)

这似乎是使用groupby方法的最佳时机。您可以实现FileName,它将为您提供一个新的数据框,其中包含具有相同日期和区域的所有实例的计数,无论日期的格式如何,只要它们都是相同的数据类型。

作为一个额外的好处,这比迭代整个数据框要快得多。