我是Pandas的新手,希望得到专业人士的一些见解。我需要对> 30个时间序列的金融证券进行各种统计分析(多元回归,相关等)。每日开盘价,最高价,最低价,收盘价。每个系列都有500-1500天的数据。由于每个分析都关注多个证券,我想知道从易用性和效率角度来看,将每个时间序列存储在一个单独的df中,每个时间序列都以日期作为索引,或者将它们合并,这是不可取的。全部变成一个带有单个日期索引的df,实际上是一个3d df。如果是后者,有关如何构建它的任何建议吗?
任何想法都非常感激。
PS。我正在努力处理跨多个时区的日内数据,但这对我的第一个pandas项目来说有点多了;这是朝这个方向迈出的第一步。
答案 0 :(得分:1)
除非你要将所有内容与所有内容联系起来,否则我的建议是将其放入单独的数据框中并将它们全部放在字典中,即{" Timeseries1":df1," Timeseries 2&# 34;:DF2 ...}。然后,当您想要将一些时间序列关联在一起时,您可以合并它们并将后缀放在每个不同df的列中以区分它们。
大熊猫的作者本人可能会对这次演讲感到兴趣{/ 3}。
答案 1 :(得分:1)
由于您只处理OHLC,因此处理的数据并不多,所以这很好。
对于这些类型的东西,我通常使用多索引(http://pandas.pydata.org/pandas-docs/stable/indexing.html),其中符号作为第一级,日期作为第二级。然后你可以只有OHLC列,你就可以了。
访问多索引使用.xs
函数。