我将数据加载到数据框中,该数据框具有列标题的多索引。目前我一直按列索引对数据进行分组,以取组的平均值并计算95%的置信区间,如下所示:
from pandas import *
import pandas as pd
from scipy import stats as st
#Normalize to starting point then convert
normalized = (data - data.ix[0]) * 11.11111
#Group normalized data based on slope and orientation
grouped = normalized.groupby(level=['SLOPE','DEPTH'], axis=1)
#Obtain mean of each group
means = grouped.mean()
#Calculate 95% confidence interval for each group
ci = grouped.aggregate(lambda x: st.sem(x) * 1.96)
但问题是组上使用的平均函数忽略NaN值,而scipy函数st.sem如果组中有NaN则返回NaN。我需要计算标准误差,同时忽略NaNs,就像平均函数那样。
我已经尝试过计算这样的95%置信区间:
#Calculate 95% confidence interval for each group
ci = grouped.aggregate(lambda x: np.std(x) / ??? * 1.96)
numpy中的std会给我一个忽略NaN值的标准偏差,但我需要将其除以NaNs的组大小的平方根,以获得标准误差。
忽略NaN时计算标准误差的最简单方法是什么?
答案 0 :(得分:9)
count()
对象的 Series
方法将不返回NaN值计数:
import pandas as pd
s = pd.Series([1,2,np.nan, 3])
print s.count()
输出:
3
所以,试试:
ci = grouped.aggregate(lambda x: np.std(x) / x.count() * 1.96)