我使用Pandas的.describe()函数(https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html)从多个数据集中获得了统计数据。
我想获得一组描述所有数据集总数的统计信息。我不能简单地合并基础数据并在合并后的数据上重新运行.describe()-数据集太大(这就是为什么数据首先被分解成多个集合的原因)。
我可以编写自己的数学函数以结合每个describe()数据框的均值和标准差等,但是我怀疑此问题很普遍,并且有一个我不知道的优雅解决方案。 / p>
例如:
times = pd.date_range(start="2019-01-01", end="2019-03-30", freq="1D")
df1 = pd.DataFrame({"time": times, "value": random.uniform(-100, 100)})
df2 = pd.DataFrame({"time": times, "value": random.uniform(-100, 100)})
df3 = pd.DataFrame({"time": times, "value": random.uniform(-100, 100)})
stats1 = df1.describe()
stats2 = df2.describe()
stats3 = df3.describe()
我想要一个函数,该函数生成代表df1,df2和df3的整个数据集的统计信息