Question

这是一个相当广泛的问题，因为我不能复制我尝试的所有不同的东西。从NYPD犯罪数据集：https://data.cityofnewyork.us/Public-Safety/NYPD-Complaint-Data-Historic/qgea-i56i

我正在尝试遍历CMPLNT_FR_DT行（这是一个字符串并且无视并转换为DateTime对象）

创建一个数据框并用值填充它，使其如下所示：

code

所以示例行看起来像：

[Date]                        [Borough]              [Crime Count]       
01-01-2014
...

...

...

12-31-2014

并代表2014年5月23日，皇后区发生了45起罪行。

我腌制数据集以加快处理时间。我正在使用python pandas库。我的问题是，无论我多么努力地计算犯罪率，我似乎都无法遍历CMPLNT_FR_DT。我也不能使用05-23-2014 QUEENS 45函数将NYPD_Historic数据框中的值设置为新值。此外，即使尝试使用set_value计算自治市镇事件，也会产生一个只能使用MultiIndex＆＃39;错误。很感谢任何形式的帮助！

Answer 1

这似乎是使用groupby方法的最佳时机。您可以实现FileName，它将为您提供一个新的数据框，其中包含具有相同日期和区域的所有实例的计数，无论日期的格式如何，只要它们都是相同的数据类型。

作为一个额外的好处，这比迭代整个数据框要快得多。

犯罪＆＃39;计算＆＃39;来自pandas大数据集

1 个答案: