我在下面编写了以下代码(参见2),以便从excel文件中提取和操作一些数据,这些数据看起来如下:
1)Excel文件内容,在每张表中:
Time F1 F2 F3
41030.00069444 -83.769997 29.430000 29.400000
41030.00138889 -84.209999 28.940001 28.870001
41030.00208333 -84.339996 28.280001 28.320000
2)代码:
raw_data = pd.read_excel(r'/Users/linnkloster/Desktop/Results/01_05_2012 Raw Results.xls', skiprows=1, header=0, nrows=1440, dayfirst=True, infer_datetime_format='%d/%m/%Y %H')
raw_data[u'Time']= pd.to_datetime(raw_data['Time'], unit='d')
raw_data.set_index(pd.DatetimeIndex(raw_data[u'Time']), inplace=True)
print raw_data
ave_data = raw_data.resample('h', how='mean')
我遇到了两个问题:
I)我真的需要读取我的Excel文件中所有工作表的数据(所有这些数据都具有与上面显示的格式相同,但不同的列名)。当我在代码的第一行添加sheetnames=None
作为pd.read_excel
的输入来实现此目的时,它会停止从Excel文件中识别列标题和索引,这使我无法取平均值/以我需要的方式操作raw_data DataFrame(如在创建新的ave_data DataFrame的最后一行代码中所见)。任何人都可以帮我开发代码,从Excel文件中的 所有工作表 中提取数据,同时仍然可以识别列标题和索引列,以便我可以操作它吗?
II) raw_data目前输出以下内容:
raw_data:
Time F1 F2 F3
2082-05-03 00:00:59.961599999 -83.769997 29.430000 29.400000
2082-05-03 00:02:00.009600000 -84.209999 28.940001 28.870001
2082-05-03 00:02:59.971200000 -84.339996 28.280001 28.320000
此处显示的日期略有错误 - 应该是2012-05-01 - 但小时是正确的。有谁知道如何更改我的代码来纠正这个问题?
非常感谢您提前