大型数据框具有一个date
列。通过使用pandas.read_csv(..., parse_dates=["date"])
来读取数据,我假设该列已被转换为表示日期的有效数据类型。
现在的任务是选择所有属于日期范围的项目,例如("2018-01-01", "2018-12-31")
。通过将date
列以排序形式并使用二进制搜索来找到边界索引,可以非常快。
但是我该如何告诉熊猫呢?按列排序并对其执行查询是否足够?我应该将其设置为pandas.DateTimeIndex
并使用.loc
吗?
一个可能的警告是,这些物品已经有一个MultiIndex
,需要保持原样。另外,我不希望在内存中有多个数据框副本。