这是一个相当广泛的问题,因为我不能复制我尝试的所有不同的东西。从NYPD犯罪数据集:https://data.cityofnewyork.us/Public-Safety/NYPD-Complaint-Data-Historic/qgea-i56i
我正在尝试遍历CMPLNT_FR_DT行(这是一个字符串并且无视并转换为DateTime对象)
创建一个数据框并用值填充它,使其如下所示:
code
所以示例行看起来像:
[Date] [Borough] [Crime Count]
01-01-2014
...
...
...
12-31-2014
并代表2014年5月23日,皇后区发生了45起罪行。
我腌制数据集以加快处理时间。我正在使用python pandas库。我的问题是,无论我多么努力地计算犯罪率,我似乎都无法遍历CMPLNT_FR_DT。我也不能使用05-23-2014 QUEENS 45
函数将NYPD_Historic数据框中的值设置为新值。此外,即使尝试使用set_value
计算自治市镇事件,也会产生一个只能使用MultiIndex'错误。很感谢任何形式的帮助!
答案 0 :(得分:2)
这似乎是使用groupby方法的最佳时机。您可以实现FileName
,它将为您提供一个新的数据框,其中包含具有相同日期和区域的所有实例的计数,无论日期的格式如何,只要它们都是相同的数据类型。
作为一个额外的好处,这比迭代整个数据框要快得多。