我有大约20个大熊猫数据帧,每个数据帧包含100到1000个系列,每个大约有20,000个记录。这些是通过从20个单独的CSV文件导入并根据UNIX时间戳将每个文件连接到公共时间序列来创建的,然后将其设置为每个数据帧的索引。原始文件看起来像:
CSV file 1 CSV file 2
___________________________________ _______________________________
datetime, FldA, FldB, FldC datetime, FldA, FldC, FldD
2010/6/15 12:00, 0.5, 1.5, 2.5 2010/6/15 12:00, 0.3, 1.9, 3.4
2010/6/15 12:30, 0.6, 1.5, 2.2 2010/6/15 13:00, 0.7, 1.6, 3.5
2010/6/15 13:00, 0.4, 1.7, 2.3 2010/6/15 13:30, 0.4, 1.7, 3.2
当导入到pandas数据框中并且每个都加入到一个公共时间戳时,添加了一年的字段,所以看起来像这样:
dataframe 1 dataframe 2
________________________________ ______________________________
time, DOY, FldA, FldB, FldC time, DOY, FldA, FldC, FldD
1276603200, 166, 0.5, 1.5, 2.5 1276603200, 166, 0.3, 1.9, 3.4
1276605000, 166, 0.6, 1.5, 2.2 1276606800, 166, 0.7, 1.6, 3.5
1276606800, 166, 0.4, 1.7, 2.3 1276606800, 166, nan, nan, nan
1276608600, 166, nan, nan, nan 1276608600, 166, 0.4, 1.7, 3.2
鉴于这些数据帧,我想在每个数据帧中对DOY执行groupby,并对每个数据分组的20个数据帧中的每一个的选定(公共)字段执行线性回归 - 基本上是这样的:
linregress(FldA(dataframe_1, DOY = 166), FldA(dataframe_2, DOY = 166))
我找到了使用同一数据帧中的系列进行此类操作的帖子,但没有找到来自具有相同索引的不同数据帧的系列的帖子。
我已尝试将所有数据框连接在一起,但我的机器扼杀了它。有关如何进行此操作的任何建议。