Python中复杂样本的错误余量

时间:2017-03-28 12:13:10

标签: python pandas scipy confidence-interval

我有国家调查的加权STATA数据集(n = 6342)。数据已经加权,即每个受访者平均代表4000名受访者。

我正在阅读具有pandas.read_stata功能的数据集。基本上,我需要实现的是通过每个问题提取数据,每个问题具有相应的频率(%)以及每个频率的误差范围。

我已经编写了Python代码来完成它并且它与频率本身完美地协同工作,即计算每个频率中的加权值之和并将其除以总加权值总和。

伪代码如下所示:

   q_5 = dataset['q5'].unique()`
    frequencies = {}
    for value in q_5:
        variable = dataset[dataset['q5'] == value]
        freq = ((variable['indwt'].sum()/weights_sum)*100)
        freq = round(freq,0)
        frequencies.update({value : freq}) 

然而,由于这是一个复杂的样本,我无法获得适当的置信区间或误差范围。 我被建议使用R代替,但考虑到语法学习曲线,我宁愿坚持使用Python。

是否有任何可以为复杂样本计算ME的Python统计软件包?

0 个答案:

没有答案