哪种df存储在python中更好?很多df与关系或一个大df

时间:2018-04-30 19:15:19

标签: python performance pandas ram back-testing

我想在python中创建自己的backtesting库。我做了一些简单的,但现在我想要做得更好 - 它涉及处理大量数据,我对此有疑问:

存储,访问和计算大量数据的最佳做法是什么?

示例:我想查看简单语句,例如,如果百分比变化大于x,那么:策略在H1间隔运行,交易在那里打开,但我需要检查价格变动,例如, M1间隔。我有1个月,30天,720小时,43200分钟的数据。这样:

选项一

1 df,720行(小时),我在上面进行交易。另外,我还有720个数据帧,每个数据帧有60行(分钟)

 for df in minute_df:
    check condition for each row

选项二

1 df,长度为43200,但列数更多(我需要为每个间隔设置ID,如D1_ID,H1_ID,M1_ID等)。我这样做:

 for row in huge_df:
   do/check sth

最后

什么更好?如果我想访问这些数据5万次,我应该如何保存这些数据?我不是" IT GUY"所以我知道的更少,但我不知道,例如,在ram中存储数据是否更好? Excel中?的sql? python本身?还有一件事 - 哪个库更好地存储所有这些数据?熊猫? numpy的?

我为我的问题制作了完美的形象:)

paint master

0 个答案:

没有答案