Question

我有国家调查的加权STATA数据集（n = 6342）。数据已经加权，即每个受访者平均代表4000名受访者。

我正在阅读具有pandas.read_stata功能的数据集。基本上，我需要实现的是通过每个问题提取数据，每个问题具有相应的频率（％）以及每个频率的误差范围。

我已经编写了Python代码来完成它并且它与频率本身完美地协同工作，即计算每个频率中的加权值之和并将其除以总加权值总和。

伪代码如下所示：

   q_5 = dataset['q5'].unique()`
    frequencies = {}
    for value in q_5:
        variable = dataset[dataset['q5'] == value]
        freq = ((variable['indwt'].sum()/weights_sum)*100)
        freq = round(freq,0)
        frequencies.update({value : freq})

然而，由于这是一个复杂的样本，我无法获得适当的置信区间或误差范围。我被建议使用R代替，但考虑到语法学习曲线，我宁愿坚持使用Python。

是否有任何可以为复杂样本计算ME的Python统计软件包？

Python中复杂样本的错误余量

0 个答案: